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إن العمل الذي بين يدي القارئ هو ترجمة من اللغة الصينية لمَوآّف عن علم الذخائر 
اللغوية. يُعْتَبَر علم الذخائر اللغوية من العلوم اللغوية التأسيسية التي تيع مفهوم دراسة 
اللغة في بيئتها الطبيعية». يعيدا عن القياس اللغوي المنطقي الذي ساد في حقل 
الدراسات اللغوية قرونًا عدة. إن علم الذخائر اللغوية علم يبحث في كيفية جمع النصوص 
اللغوية الطبيعية وتهيئتها وترميزها؛ بحيث تكون صالحة للبحث ‏ اللغوي ودراسة الظواهر 
اللغوية الطبيعية على مستوى أفرع علم اللغة بنظرياته وتطبيقاته الحفيلك منطال غنم 
الذخائر اللغوية, باعتباره أحد المنهجيات التي تمهد لدراسة اللغة الطبيعية بشكل 
موضوعيء مكانة متقدمة في حقل اللسانيات الحديثة. وقد استثمرت بت منهجية الذخائر 
اللغوية في الأبحاث اللغوية التي تحدم علم اللغة التطبيقي بأفرعه المخظقة وفي مقدمتها 
اللغويات الحاسوبية؛ وصناعة المعاجم: وعلم المصطلح, وتعليم اللغات لأهلها أو 
للأجانب. والترجمة تعليمً وممارسة, وما إلى ذلك. والجدير بالذكر أن هذا العلم قد نما 
وتطور تحت مظلة علم اللغة الحاسوبي. 
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كلمة المترجم 


يُعْتَبّرِ علم الذخائر اللغوية!) من العلوم اللغوية التأسيسية التي تُرَمئخ 
مفهوم دراسة اللغة في بيئتها ١‏ لطبيعية؛ بعيدا عن القياس اللغوي المنطقي 
الذي ساد في حقل الدراسات اللغوية قروا عدة. إن علم الذخائر للغوية 
الذي أُسَّسَّ له عالم اللغة الإنجليز ي ليتش (ط»ع0.6)( في النصف الثاني من 
القرن العشرينء هو علم يبحث في كيفية جمع النصوص اللغوية الطبيعية 
وتهيئتها وترميوها؛ يعي ككون صائعة للبحت اللغوى ودراسة الظواهر 
اللغوية الطبيعية على مستوى أفرع علم اللغة بنظرياته وتطبيقاته الحديثة. 
يحتل علم الذخائر اللغوية- باعتباره أحد المنهجيات التي تمهد لدراسة اللغة 
الطبيعية بشكل موضوعي- مكانة متقدمة في حقل اللسانيات الحديثة. ولا 
غنى للباحث اللغوي عن التعرف على مفاهيم هذا العلم وفنياته وتطبيقاته» بل 
وطرّق بناء الذخائر اللغوية بأحجامها المختلفة لخدمة أغراض بحثية معينة. 


)١(‏ لمزيد من المعلومات عن تأصيل مصطلح "الذخائر اللغوية"» انظر: 
هشام موسى المالكيء "إشكاليات تهيئة الذخائر اللغوية وبنائها حاسوبيًا -اللغقان 
العربية والصينية- نموذجًا": مجلة أواصرء المجلد الثاني؛ المركز القومي للترجمة». 
القاهرة؛ 2.7٠١5‏ ص 8؟50-7ه. 

2س( جيفري ليتش (طاعععآ1 01117ع2)). من مواليد 555 », عمل أستاذا للغويات 0 
الإنجليزية الحديثة بجامعة لانكاستر البريطانية في الفترة من ١591754‏ حتى 7ء 
ويعمل أستاذًا متفرغا بقسم اللغويات واللغة الإنجليزية بالجامعة نفسها منذ ؟. 00 
الآن» كما أنه عضو بالأكاديمية النرويجية للعلوم والآداب. 
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فالذخيرة اللغوية» وفقًا لمفاهيم علم الذخائر اللغوية» هي بناء لغوي 
يتمتع بمواصفات ومعايير فنية تجعله قادرًا على. استيعاب النصوص اللغوية 
وإتاحتها للبحث اللغوي العام والخاص. وينبغي أن تخضع النصوص اللغوية 
التي يحتويها هذا البناء إلى قواعد معينة من حيث أساليب الجمع؛ ونسّب 
التمثيل: وطرق المحالجة قبل عتليّة الجمع وبعدهاء ومنهجيات الترميسز 
والأساليب التي يتم على أساسها عمليات الاستعلام والاستدعاء حسب 
متطلبات البحث اللغوي. 

وقد اسنَدْمرت منهجية الذخائر اللغوية في الأبحاث اللغوية التي تخدم 
علم اللغة التطبيقي بأفرعه المختلفة وفي مقدمتها اللغويات الحاسوبية؛ 
وصناعة المعاجم, وعلم المصطلح:؛ وتعليم اللغات لأهلها أو للأجانبء. ٠:‏ 
والترجمة تعليمًا وممارسة» وما إلى ذلك. والجدير بالذكر أن هذا العلم قد نما 
وتطور تحت مظلة علم اللغة الحاسوبي. وقد تفاعل العلْمَّين معًا أخذا وعطاءً 
على مدى ما يزيد عن نصف قرن؛ حيث ساهم علم الذخائر اللغوية بما يُقدّمّه 
من مفاهيم ومنهجيات في تطوير آليات علم اللغة الحاسوبي في التعامل مع 
المادة اللغوية الطبيعية موضع البحث سواء على المستوى الشفهي أو 
المستوى التحريري. وعلى الجانب الآخرء فقد ساهم تطور علم اللغة 
الحاسوبي الذي تواكب مع تطور إمكانات الحاسوب في تقديم الأدوات التقنية 
التي كان لها أكبر الأثر في تقدم مفاهيم ونْظُم بناء الذخائر اللغوية. وعلى هذا 
الأساس؛ يمكننا القول بوجود علاقة طردية بين المجالين» تجعل كلا منهما 
يؤثر في الآخر دفعًا وتطويرا. 


وعلى الرغم من ذلكء فإنني أنظر إلى هذا العلم بمفاهيمه:؛ وآلياته؛ 
وتطؤياتة من خلال منظون أوطع يجعل ائداه علّمالذخائر اللغوية تخرج من 
إطار اللغويات الحاسوبية لتشمل البحث العلمي في كل ما يتصل بالإنتاج : 
اللغوي عند أي جماعة لغوية سواء في اتجاه أحادي؛ أو في اتجاه تقابلي أو 
مقارن مع لغات أخرى. وأخصٌ بذلك مجالات الإبداع الأدبي وبخاصة ما 
يتعلق بالنقد الأدبي وتحليل النصوص الأدبية؛ حيث تُمَكن أدوات هذا العلم 
الباحث من جمع النصوص الإبداعية بأنواعها المختلفة وتهيئتها للبحصث 
العلمي» وتطوير آليات البحث فيها عن طريق ترميزها بمنهجيات مختلفة 
تتيح الفرصة لإجراء عمليات استعلام متعددة الوظائف عليها لاستخراج 
اللوانان الأنزية: والخضائمن الأسارنية للتشوض موضم التعليل أو القن 
كما يمكن أن تمتد فائدته لدراسة النصوص الدينية وتفسيراتها أو ترجماتها 
المختلفة بغرض الوقوف على أوجه التشابه والاختلاف بين التفاسير أو 
الترجمة؛ أو جمع النصوص التراثية وتحليلها من وجهة نظر علم اللغة 
التداولي» وتحقيقها وما إلى ذلك من قضايا بحثية. وتحقيق تلك القضايا 
البحثية بالطرق التقليدية لا يتيح الوصول إلى النتائج المرجوة إلا بعد 
استنزاف وقت وجهد طائلين من الباحثين» بالإضافة .إلى تحجيم نطاق النتائج 
التي يتم تحقيقهاء فضلاً عن عدم وجود تراكم للنصوص المدروسة, التي لا 
تتم معالجتها وفقًا لمعايير علم الذخائر اللغوية بما يُمَكّن من الاستعانة بها في 
مستويات بحثية أخرى. 

والعمل الذي بين يدي القارئ هو ترجمة من اللغة الصينية لمؤّّف عن 
علم الذخائر اللغوية الذي ترجع أصوله إلى اللغة الإنجليزية» ثم أخذ رحلته 
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التطور والارتقاء عبر لغات مختلفة سواء من حيث التأليف وعقد سلاسل 
المؤتمرات الدورية المتخصصة:؛ أو من حيث مشروعات الذخائر اللغوية 
الضخمة التي ثنشئها الدول وترعاها وتمولها بأموال طائلة؛ تمهيذا لطرحها 
للاستخدام على مستويات بحثية مختلفة. وهنا قد يتبادر إلى الذهن سؤال عن 
الدافع وراء ترجمة هذا العلم عن اللغة الصينية؟ فما دام أن علم الذخائر 
اللغوية قد نقل إلى الصين عن اللغة الإنجليزية» فلماذا لا ننقل عن اللغة 
الإنجليزية مباشرة؟ والإجابة على هذا السؤال ألخصها في النقطتين التاليتين: 
أولاً: على الرغم من كثرة المتعاملين باللغة الإنجليزية واللغات 
الهندأوروبية والمترجمين عنهاء ففي حدود المعلومات المتوفرة لديء لم يتقدم 
أحد بطرح فكرة ترجمة كتاب عن هذا العلم عن أية لغة من اللغات. ويرجع 
السبب في ذلك إلى عدم وجود قسم علمي متخصص للغويات الحاسوبية في 
الجامعات المصرية؛ مع ندرة الكوادر المتخصصة في هذا المجال في مصرء 
والذين تتلقفهم الدول الأجنبية فيذهبون للبحث في الجامعات الأجنبية هَربًا من 
البيئة المحلية غير المُهيّئة للعمل العلمي المشضبط في مجال اللغويات 
الحاسوبية؛ الأمر الذي أدى إلى وجود حالة من التضارب المفهومي 
والاصطلاحي في مؤلفاتنا اللغوية الحديثة فيما يتعلق بمنهجيات هذا العلم 
وأهميته وطرق توظيفه في البحث اللغوي التطبيقي. ومن وجهة نظريء» 
يُعْتبّر هذا الوضع أحد أسباب تراجع حال البحث اللغوي في اللغة العربية 
بالمفاهيم الحديثة لعلم اللغة» ونَّوَجُه اللغويين لدينا إلى اتخاذ موقف الحاكي . 
عن تجارب الدول فيما يتعلق بعلم اللغة الحديث؛ بدلا من تصدُر المشهدء 
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وتولي مسئولية الفعل والتطبيق؛ وذلك باستثناء عدد قليل من الباحثين الذين 
يعملون بشكل منفرد. وذلك على خلاف ما يحدث على صعيد اللغفات 
الأخرى. بالإضافة إلى ذلكء تنعدم التطبيقات اللغوية النابعة من احتياجاتتا 
الواقعية» الأمر الذي أدى إلى حالة من التبعية الدائمة للشركات الأجنبية في 
كل ما يتعلق بالتطبيقات اللغوية التقنية التي تتعامل مع اللغة العربية سواء 
على مستوى مشروعات البرمجيات الحاسوبية التي تتعامل مع اللغة الطبيعية؛ 
أو على مستوى التعامل المتقدم باللغة العربية على محركات البحث عبر 
الشبكة» وما إلى ذلك من تطبيقات حققت نتائج غير مسبوقة في لغات أخرى. 
ثانيًا: إن النقل عن اللغة الصينية ليس كما يتبادر إلى ذهن العامة من 
أن الصين هي تلك الدولة البعيدة التي تنتمي إلى دول العالم الثالث؛ التسي 
تُصَدّر لنا "فوائيس رمضان" والسلع رخيصة الثمن "المضروبة"؛ أو تلك 
الدولة التي تمتلك لغة صعبة مفرداتها عبارة عن مجموعة هائلة من الرسوم 
توقفت عن النمو وملاحقة ركب التطور اللغوي منذ مئات القرون» وما إلى 
ذلك من مفاهيم مغلوطة مرجعها إلى توجهنا الدائم بأنظارنا إللى الغرب»: 
وتمحور اهتمامنا في التعلم من ذلك المكان الذي تغرب فيه الشمسء علمًا بأن 
الشمس تشرق دائمًا من الشرق. إن اللغة الصينية هي أثمن ما تملكه تلك 
الدولة البعيدة الغنية بمواردها البشرية التي تجعل تجربة النقل عنهم تجربة 
ثرية على الرغم من صعوبتها بل استحالتها في بعض الأحيان إذا ما قورنت 
بلغات أخرى كالإنجليزية. ولكن ما يزيد التجربة ثراءً هو نقل ذلك الفهم لعلم: 
الذخائر اللغوية لدى الصينيين الذين نجحوا بالفعل في معالجة قضايا شائكة 
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أصعب ما تكون مقارنة بما تعانيه اللغات الأخرى. فقد كانت تجربتهم في 
معالجة اللغة الصينية اعتمادًا على الذخائر اللغوية في المقام الأول» ثم 
انطلقت المراكز البحثية والجامعات بقوافل من الباحثين وأعداد هائشة من 
المؤتمرات المتخصصة:؛ وفي النهاية توصلوا إلى توطين مفهوم علم الذخائر 
اللغوية. الأمر الذي قادهم إلى التوصل إلى حلول جذرية لمشكلات المعالجة 
الآلية للغة الصينية الطبيعية على جميع الأصعدة على الرغء مسن صعوبة 
لغتهم؛ ولذلك أرى أن تجربة النقل عن اللغة الصينية فيها من الثراء ما لا 
يمكن أن يوجد إذا نقلت عن الإنجليزية صاحبة الفكرة الأساسية. 

فالصينيون نجحوا في توطين علم الذخائر اللغوية وتوظيفه بشكل 
عملي, وأنتجوا من خلاله التطبيقات الحاسوبية التي تَعَبّر عن هويتهم الذاتية 
في حل الإشكاليات ذات الخصوصية اللغوية» وعلى رأسها التمييز الآلي 
لحدود الكلمات في النصوص التحريرية المكتوبة باللغة الصينية» أو التمييز 
الآلي للغة التحريرية سواء المكتوبة بحروف مطبعية أو بخط اليد وأنظمة . 
إدخال اللغة إلى الحاسب الآليء أو إدارة الاستعلامات المتقدمة باللغة الصينية 
عبر الشبكة» أو التواصل بين العنصر البشري والآلةء وما إلى ذلك؛ الأمر 
الذي مكن الصينيين من إضافة بصمة واضحة المعالم في الوعاء المعرفي 
لعلم الذخائر اللغوية. 

ومن هنا تولّدَ لدي الدافع الأول لمبادرة توطين هذا العلم في اللغة 
العربية. مما جعلني أتحمس لمبادرة ترجمة هذا الكتاب عن اللغة الصينية بعد 
ما شاهدته في أثناء تعاملي مع الصينيين العاملين في مجال اللغويات 
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الحاسوبية في رحلات علمية مختلفة إلى الصين من اهتمام بحثي ومتابعة 
لأحدث التطورات العالمية في علم الذخائر اللغوية. بالإضافة إلى أن اللغة 
الصينية هي اللغة التي أتخصص في الترجمة منها وليست الإنجليزية» فضلاً 
عن السبب الذي سبق ذكره من عدم مبادرة العاملين في الترجمة عن 
الإنجليزية أو اللغات الأخرى وما أكثرهم بتقديم هذا العلم وترجمة أحد هذه 
المؤلفات وتوطين مفهوم علم الذخائر اللغوية في الوعاء المعرفي للغبة 
العربية. وهذا الكتاب هو الكتاب الأول الذي تتم ترجمته إلى اللغة العربية في 
مجال علم الذخائر اللغوية» على أمل أن تؤدي تجربة الترجمة إلى نقل المزيد 
من المؤلفات عبر لغات أخرىء وإلى التأليف باللغة العربية. وقد رأيت 

بنفسي أنه بقدر اهتمام الدول بعلم الذخائر اللغوية وتطوير آلياته» بقدر تطور 
لبحث اللغوي التطبيقي للغاتها. وبقدر الفهم المتعمق لأي عالم من علماء 
اللغويات لمفاهيم هذا العم ومتهجياتةء وآلياكة» يقدر تعاظم ها يمك أن يض 
إليه من نتائج تطبيقية. وبقدر ما تهتم به الدول» بقدر ما ترقى لغاتها إلى 
مستوى الدخول في عصر المعلومات. 

والمُؤلف الرئيس لهذا الكتاب هو الأستاذ الدكتور خوانغ تشانغ نينغ» 
أحد أشهر علماء اللغة الحاسوبيين في الصين. ولد خوانغ تشانغ نينغ عام 
7 في مقاطعة جوانغ دونغ» وفي عام ١15١‏ تخرج في قسم المحركات 
الكهربية بجامعة تشينغ خوا ببكين. وفي عام ١1475‏ سافر في بعثة إلى 
جامعة ييل (وانس املا:ءلهل؟) بالولايات المتحدة الأميركية لمدة عام؛ وعمل 
في التدريس لمدة عام بجامعة العلوم والتكنولوجيا بهونج كونج عام .١1545‏ 
وفي عام 444١ء‏ عمل مدير! لمركز أبحاث شركة ميكروسوفت في الصين. 
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ويَنْظْر إليه الصينيون باعتباره ممهد الطريق لتوطين علوم المعالجة الآلية 
للغات الطبيعية في الصين . في سبعينيات القرن العشرين؛ ذاع صيته كأستاذ 
متميز في جامعة تشينغ خوا عندما ألف مُقرّر ((دوائر الترائزستور))؛ حيث 
حقق هذا المقرر مبيعات زادت عن مليون نسخة داخل الصين. وبعد ذلك» 
قَتَمَّ ترجمة لكتابين أحدثا أثرًا كبيرًا في المجتمع العلمي الصيني هما كتاب 
((مبادئ الذكاء الاصطناعي))؛ وكتاب ((البرمجة باس تخدام لغة «1:15))؛ 
ليملا بذلك الفراغ العلمي الموجود في تلك الفترة. 

وقد وصل خوانغ تشانغ نينغ إلى قمة أخرى من قمم الشهرة العلمية 
عندما عمل في حقل الدراسات المتغلقة بعلم معالجة اللغات الطبيعية؛ حيث 
بدأ بتنظيم مجموعات بحثية داخل الصين وخارجها في هذا المجال» ثم تولى 
رئاسة العديد من المؤتمرات الدولية وهيئات المبرمجين في مجال المعالجة 
الآنية للغات الطبيعية. ويتولي خوانغ تشانغ نينغ الآن رئاسة تحرير ((المجلة 
العلمية للمعلوماتية الصينية))؛ بالإضافة إلى كونه مّحكمًا وعضو هيئة تحرير ' 
العديد من المجلات العلمية الدولية مثل ((المجلة التخصصية في معالجة 
المعلومات باللغات الآسيوية 4©24)) بالولايات المتحدة الأميركية» و((النشرة 
الدورية لجمعية معالجة المعلومات باللغة الصينية واللغات الشرقية)) 
بسنغافورة» ومجلة ((معالجة اللغات الطبيعية)) باليابان» ومجلة ((دراسات 
نقدية حول علم اللغة في الصين)) بهونج كونج» ومجلة ((علم اللغة الحاسوبي 
ومعالجة اللغات الصينية)) بتايوان(". 


)١(‏ لمزيد من المعلومات عن المؤلفء انظر الموسوعة الصينية على الرابط التالي: 
خط .1615502 نسم .نالتهطع ا أقط//:صاغط 
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وقد شارك خوانغ تشانغ نينغ في مشروعين بحثيين في إطار الخطة 
الخمسية السابعة للحكومة الصينية عام 2١94©‏ هي: مشروع "الفهم الآألي 
للغات الطبيعية والبرامج البينية بين الإنسان والآنة”' وكان ذلك في نطاق 
مشروعات العصفٍ الذهني» ومشروع 'تقنيات الفهم الآلي للنصوص 
العسكرية" في نطاق المشروعات البحثية المستقبلية للدفاع الوطنيء بالإضافة 
إلى مشروع 'نظام للترجمة الآلية بين اللغتين الصينية واليابانية' بالتعاون بين 
جامعتي تشينغ خوا ونانكين الصينيتين. وقد حصل هذا المشروع على المركز 
الثاني في مجال تطوير العلوم والتكنولوجيا من لجنة التعليم بالحكومة الصينية. ' 

وقد سبق أن تولى خوانغ تشانغ نينغ رئاسة الفريق البحشي الصيني 
الذي كلف من وزارة الصناعات الإلكترونية الصينية للمشاركة في مشروع 
الترجمة الألية متعدد اللغات» الذي رصدت له الحكومة اليابانية خمسين 
مليون دولار أميركي عام ١11٠‏ لتطوير نظام للترجمة الآلية بين لغات 
خمس دول آسيوية هي: اليابان» والصينء وماليزياء وسنغافورة» وتايلاند. 

وفي عام 1555 شارك في مشروع بحثي للترجمة الآلية بين اللغتين 
الإنجايزية والصينية ممثلا عن جامعة تشينغ خوا الصينية بالتعاون مع شركة 
28:0 الأميركية. كما نجح مع فريقه البحثي في بيع حقوق الملكية الفكرية 
لعدد من النتائج البحثية لشركتي آي بي إم 1814» وميكروسوفت 111©705066. 

ينقسم كتاب ((علم الذخائر اللغوية)) إلى خمسة أبواب وملحق 
للاختصارات وقائمة مراجع. 
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الباب الأول: عبارة عن مقدمة تعريفية بالذخائر اللغوية؛ وماهية علم 
الذخائر اللغوية» وتاريخ تطور العلم وآفاقه المستقبلية» والدور الذي يلعبه 
الحاسب الآلي في علم الذخائر اللغوية» والموضوعات البحثية التي يهتم بها 
هذا العلم. 

الباب الثاني: يتحدث عن تصميم الذخائر اللغوية وتطويرهاء من حيث 
بعض مشكلات جمع المادة اللغوية» وكيفية بناء ذخيرة لغوية: وأهم 
الموضوعات التي ينبغي أخذها بعين الاعتبار حتى تكون ال ذخيرة مُمَتلة 
للواقع اللغوي. بالإضافة إلى عرض لأنواع الذخائر اللغوية» وتعريف بأشهر 
الذخائر اللغوية على مستوى العالم والصين. 

البابْ الثالث: يتطرق إلى معالجة الذخائر اللغوية والتقنيات المستخدمة 
في إدارتهاء وطرق إدارة الاستعلام داخل الذخائر اللغوية؛ وتوظيف علم 
الإخصاء فى غلم انان اللغرية: وأشون بومجيات الفيرسة المتروفة مكل 
برمجية كولوكيت 601100246 وتيبيكال 21ه1م:39: بالإضافة إلى ترميز 
النحائن الأغوية من نيك المفهوم والغترض» وأشواع الترمير ا لتحلفة: 
اللنصوص اللغوية على كل من المستويات النحوية والدلالية» والترميز على 
مستؤى الخطاب. 

الباب الرابع: يتحدث عن العلاقة بين علم الذخائر اللغوية وعلم اللغة: 
من حيث استقدام منهجية الذخائر اللغوية في الدراسات اللغوية على مستوى 
البحوث المتعلقة بعلم المفردات» والنحوء والدلالة» بالإضافة إلى علم اللغة 
التداولي وتحليل الخطاب؛ فضلاً عن تعليم اللغات وعلم المعجمية. 
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الباب الخامس: يتناول تطبيقات منهجية الذخائر اللغوية في علم اللغة 
الحاسوبي؛ من خلال دراسة الأبحاث المتعلقة بإزالة اللبس الدلالي» 
والدراسات المتعلقة بتمييز التعبيرات اللغوية الاسمية وما إلى ذلك. 

لم تكن تجربة نقل كتاب ((علم الذخائر اللغوية)) عن اللغة الصينية 
تجربة سهلة» لعدة أسباب أهمها عدم وجود وعاء معرفي سابق باللغة العربية 
في الترجمة والتأليف في هذا المجال» الأمر الذي جعل رحلة الترجمة بكل ما 
تحتويه من مصطلحات وما تشير إليه تلك المصطلحات من مفاهيم علمية 
أمرا شاقًا ومحفوفًا بالمخاطر؛ خشية الإخفاق في التعبير عن المصطلح بلغة 
مناسبة سهلة الفهم. فضلاً عن أن أي خلل في الصياغة من شأنه أن يؤدي 
إلى خطأ في التوجيه لا يستطيع المترجم تحمل عواقبه العلمية. لذلك أنتهز 
هذه الفرصة للتأكيد على ضرورة المراجعة ومداومة الفعل وتوظيف ما ورد 
بالكتاب من مصطلحات ومفاهيم عن طريق الممارسة واستمرار الترجمة؛ 
لدفع المصطلحات والمفاهيم الواردة بالكتاب إلى مزيد من السلاسة والتداول. 
ومن ضمن أسباب الصعوبة أيضنًا أن النقل قد تم عن اللغة الصينية وما 
يُحتَمُه هذا النقل من مواجهة بعض المشكلات الخاصة باللغة الصينية؛ التي 
ليس لها وجود في لغات أخرى وبخاصة اللغة العربية؛ ما أدى إلى استغراق 
الكتاب وقَتَا مضاعفا عما كان مخططًا له في البداية» إلى أن تمكنت من 
تدشين المضطلحات الجوهرية لهذا العلم الوليد في اللغة العربية. وقد ساعدني 
في التغلب على هذه المشكلات عدد من القراءات الإثرائية باللغتين الصينية 
والإنجليزية» فضلاً عن ممارسة الإنتاج العلمي والبحثي في بعض القضايا 
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التي يتناولها الكتاب بالتوازي مع تقدم العمل في الترجمة. فقد كان إذن 
لتخصصي في الترجمة واللغويات الحاسوبية عظيم الأثر في سبر أغوار علم 
الذخائر اللغوية» وتسهيل معالجة بعض المفاهيم المُركة والمنهجيات 
المُستَعْلَقََه وصياغة المصطلحات المعبّرَّة عنها بأكبر قدر من الوضوح؛ حتى 
يتم توسيدها في الوعاء المعرفي للغة العربية؛ إيمانا من المترجم بأهمية 
العلوم البينية وتداخل التخصصات اللغوية (كاللغويات الحاسوبية وعلم 
الذخائر اللغوية) في العمل على تكامل البحث اللغوي التطبيقي. 
وسعيًا إلى توسيع دائرة فائدة القارئ العربي من الكتاب قدمت بعسض 
الإضافات في النسخة المترجمة تتمثل فيما يلي: 
-١‏ مقدمة بقلم المترجم للتعريف بأهمية الكتاب والمؤلف. 
؟- عدد من الحواشي استعنت بها لشرح بعض المفاهيم الخاصة 
بطبيعة اللغة الصينية أو التعريف ببعض العلماء الذين لهم إسهامات 
في مجال الذخائر اللغوية أو اللغويات الحاسوبية. 
*- فهرس باللغتين الصينية والعربية يحتوي قائمة المصطلحات 
الواردة في: الكتاب الأصلي مع إضافة المعنى المقابل بالإنجليزية 
لعدد من المصطلحات الأساسية في هذا التخصص.ء لإفادة الباحثين 
والمترجمين العاملين في هذا المجال» ولتكون بداية لتوطين تلك 
المصطلحات في الوعاء المعرفي للغة العربية» من خلال مداوأمة 
العمل على تطويرها وتنميتها واستخدامها بين المتخصصين. 


4- ترجمة للمراجع الصينية التي استعان بها مؤلف الكتاب لتعريف 
القارئ بمستوى ما توصل إليه الصينيون في هذا المجال. 
5- ترجمة للأمثلة التطبيقية الصينية الموجودة في الكتاب وقدتم 
وضعها دائمًا بين علامتي تنقنصيصء لزيادة مفهومية النص 
المترجم. 
وفئة القراء المستهدفة من ترجمة كتاب "علم الذخائر اللغوية" هم 
العلماء والباحثون المتخصصون في مجال اللغويات الحاسوبية على وجه 
الخصوصء والعلماء والباحثون في حقل اللغويات التطبيقية بصورة عامة» 
وخاصة في مجالات علم المعجمية» وعلم المسصطلح., والترجمة:؛ وتعليم 
اللغات» وما إلى ذلك. كما يستهدف الكتاب المتخصصين في الدراسات 
الأدبية؛ حيث يمكنهم الاستعانة بمنهجيات هذا العلم في دراساتهم النقدية 
والأسلوبية اعتمادًا على تحليل ذخائر لغوية أدبية. ويمكن اعتبار هذا الكتاب 
مرجِعًا للباحثين المشتغلين في بحوث لغوية تطبيقية» أو بحوث أدبية تستعير 
من اللغويات أدوات التحليل والعرض؛ حيث يساعد هذا الكتاب على ترسيم 
مُخطّط علمي منضبط يمكن أن يَعْتمد عليه الباحثون في عملهم. 
وأود التأكيد على أن هذا العمل يُعَدُ بالنسبة إليّ نقطة البداية لسلسلة من 
الأعمال المترجمة التي أحلم بتوطينها في اللغة العربية عن علم اللغة 
الحاسوبي بقضاياه وتوجهاته البحثية المختلفة. إن ترجمة كتاب "علم الذخائر 
اللغوية” بالنسبة إلى هذه الأعمال هو الخطوة الأولى نحو توطين تلك العلوم 
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باللغة العربية. على أمل أن يحظى هذا الجهد بقبول حسنء وأن يسسْهمَ في 

تعريف القارئ العربي بعلم الذخائر اللغوية وكيفية الاستفادة منه من قبل 

الباحثين في بناء ذخائر لغوية عامة وخاصة تساعد على دراسة اللغة العربية 

في الاتجاه التطبيقي والتحليق بها إلى آفاق التطبيق» حتى تخرج هذه اللغة 

العريقة من مئباتها البحثي والعملي الذي تسبب فيه أهلهاء وتنحصر الفجوة 
بيننا وبين من سبقوناء وحتى تعود الشمس لتشرق من الشرق. 

أ.د./ هشام موسى المالكي 

أستاذ الترجمة واللغويات الحاسوبية 

قسم اللغة الصينية 

كلية الألسن- جامعة عين شمس 


القاهرة - أبريل - 7١١٠م‏ 


الباب الأول 
مقدمة ومدخل إلى الموضوع 


أصبح "علم الذخائر اللغوية (1)كذناعد!.آ 5دام:20) بالفعل فرعًا من 
فروع علم اللغة. وإجراء الأبحاث القائمة على الذخائر اللغوية لم يعد مقتصرًا 
على خبراء علوم الحاسب فقطء بل أصبح لهذا العلم تأثير متزاية على جميع 
المجالات البحثية في علم اللغة". هذه العبارة ذُكرت في مقدمة الكتاب القيّم 
الذي للف ه توماين واخروة عام 5ف 1 بنناسية الاحسان يمروو ميقن مانا 
على ميلاد عالم اللغة ليتش (ط»1,66)!) مؤسس علم الذخائر اللغوية. وقد 
تزايدت الإشارات والنصوص المعبرة عن المضمون نفسه في السنوات 
الأخيرة في المؤلفات اللغوية الشهيرة التي تتناول منهجية العمل في البحوث 
اللغوية وأساليبهاء وأصبح هذا المصطلح من المصطلحات المتعارف عليها 
لدى جميع العاملين في علوم اللغةا!!. 


00 عمل أستلاًا للغويات‎ 2١575 جيفري ليتش (1,66©1 'إ©6©01417) من مواليد‎ )١( 
حتى ”ء‎ ١59754 الإنجليزية الحديثة بجامعة لانكاستر البريطانية في الفترة من‎ 
كر‎ ٠ ويعمل أستاذا متفرغا بقسم اللغويات واللغة الإنجليزية بالجامعة نفسها منذ‎ 
الآنء كما أنه عضو بالأكاديمية النرويجية للعلوم والآداب. (المترجم)‎ 
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الفصل الأول 
الذخائر اللغوية وعلم الذخائر اللغوية 


يُقْصَد بالذخيرة (وسمم0©) ذلك الكيان (أَوْ قاعدة البيانات) الذي تُخزّن 
بداخله النصوص اللغوية. وقد جرى العرف بين علماء اللغة أن مصطلح 
ذخيرة لغوية يُقصّد به ذلك العدد الهائل من الشواهد اللغوية الطبيعية الذي 
يُستخدم كأساس لإجراء البحوث اللغوية. والذخيرة اللغوية لا تدصر فقط 
على اللغة التحريرية؛ ولكنها تحتوي أيضا على عينات صوتية من اللغة 
الشفهية» وقد تقتصر الذخيرة على أحد مستويات اللغة فقطء» سواء المسستوى 
الكتابي أو المستوى الشفهيء هذا بالإضافة إلى أن هذا المفهوم يُستخدم أيضنًا 
للدلالة على اللغة في حالة ثابتةء أو اللغة في حالاتها المتغيرة على حدّ سواء. 
وقبل اختراع الحاسب الآلي كان الباحثون -على وجه الخصوص مؤلفو 
المعاجم اللغوية - يمتلكون ذخائر لغوية» إلا أن نطاق تلك الذخائر كان 
محدوذا للغاية؛ ولذلك كان من الصعب تكوين تيار علمي يمثل هذا -المصطلح 
في الأوساط اللغوية. ولكن منذ حوالي أربعين عامّاء أصبح هذا المسصطلح 
يقترن دائمًا بالمادة اللغوية الطبيعية التي نُخْنّن عن طريق الحاسب الآليء 
التي تُستّخدم في الدراسات اللغوية والتطبيقات الخاصة بهندسة اللغة. ومع 
تطور الحاسب وتقنياته تطورت الذخائر اللغوية وتعددت أشكالها وتضاعف 
حجمها؛ بالإضافة إلى تنوع أغراض استخدامها وتطبيقاتها. وفي الوقت ذاته 
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ظهرت أعداد كبيرة من البرمجيات المتخصصة التي تَستّخدم في حفظ 
نصوص الذخائر اللغوية واسترجاع المعلومات من تلك النصوص ومعالجتها. 
وتطورت الذخائر اللغوية الإلكترونية بصورة سريعة لتصبح مصدرًا مهما 
من مصادر البحث اللغوي. وقد تأسست العديد من الذخائر اللغوية فائقة 
الحجم على مستوى العالم؛ منها ما هو عالمي؛ ومنها ما هو محلي على 
مستوى الجامعات ومؤلفي ودور نشر المعاجم. هذا بالإضافة إلى أن التطور 
السريع للحاسبات الشخصية وانخفاض تكلفة وسائط تخزين البيانات قد أتاح 
الفرصة أمام كل باحث لتكوين ذخائر لغوية تتلاءم مع احتياجاته وميوله البحثية. 


وعلى الرغم من أن هناك تاريخا ملمومًا لعلم الذخائر اللغوية» فإنه لم 
يتم الاتفاق على تعريف محدد لهذا العلم حتى الآن. وفيما يلي نستخلص 
تعريفين لعلم الذخائر اللغوية: 

التعريف الأول: علم الذخائر اللغوية (عناوتناوهة! .5نام0©) هو ذلك 
العلم الذي يهتم بدراسة اللغة على أساس من أمثلة لغوية واقعية تُستّمد مسن 
واقع الحياة الطبيعية للجماعة اللغوية. (ماكنري وولسون )١595‏ !3ا. 

التعريف الثاني: علم الذخائر اللغوية هو ذلك العلم الذي ينطلق مسن 
الوصف اللغوي للنصوص اللغوية أو يتخذ من الشواهد اللغوية الواقعية داخل 
النصوص تقطة انطلاق لتحديد فرضيات البحث اللغوي. (كريستال )١191‏ !3 

ويمكننا أن نلاحظ من خلال التعريفين السابقين أن مسصطلح علم 
"الذخائر اللغوية" باعتباره مصطلحًا علميّاء يختلف اختلاقًا جوهريًا عن "علم 
النحو". و"علم الدلالة" في كونه لا يهتم بالنظر “إلى جانب واحد من جوانب 
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اللغة؛ ولكنه منهجية بحث لغوية تعتمد على نصوص اللغة الطبيعية في 
دراسة الظواهر اللغوية. وفي الحقيقة أن هذا العلم يضم توجهين أساسيين: 
أولاً: تهيئة اللغة الطبيعية وترميزها لخدمة البحوث اللغوية. 
ثانيًا: إجراء الدراسات اللغوية وتطوير التطبيقات اللغوية على الذخائر 


أي يلي 


بعد تهيئتها وترميزها. 


الفصل الثاني 
تاريخ تطور علم الذخائر اللغوية 


يرجع تاريخ علم الذخائر اللغوية تباعتباره أحد المنهجيات التي تَدررس 
اللغة الطبيعية- إلى القرن الماضيء وترجع الوثائق!!! التي ذكرت ذلك العلم 
إلى فترة تكوّن نظرية النحو التحويلي التوليدي لناعوم تشومسكيء ومنذ ذلك 
الوقت حتى الآن يمكننا تقسيم تاريخ ذلك العلم إلى ثلاث مراحل!!ا!: 
١‏ البدايات الأولى لعلم الذخائر اللغوية (ى)دذدوه!! ددام:م») 

كان ذلك قبل النصف الأول من خمسينيات القرن العشرين» ويُقصد 
بذلك جميع البحوث اللغوية التي كانت تنطلق من المواد اللغوية الطبيعية في 
فترة ما قبل ظهور نظرية النحو التحويلي التوليدي لتشومسكيء ويمكن تمثيل 
التطبيقات التي نتجت في تلك المرحلة من خلال النقاط .التالية: 

أ) اكتساب اللغة 

هذا الحقل من أول المجالات التي استخدمت فيه الذخائر اللغوية 
كوسيلة من وسائل البحث اللغوي. ففي سبعينيات القرن التاسع عشرء ظهر 
في أوروبا أول تيار من الدراسات يبحث في طرق اكتساب الأطفال للغة. 
وفي الوقت ذاته» كانت جميع المواد اللغوية موضع الدراسة هي تلك 
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اليوميات التي تدوّن حديث الوالدين للأبناء وتَظَوّر هذا الحديث مع تقدم 
الأبناء في السن. وكما هو معروف كانت تلك اليوميات هي المادة الأولية 
التي اعتُبرت أحد المصادر اللغوية التي بنى عليها العلماء فرضياتهم اللغوية 
أمثال بريار «عنووءءم *! وستيرن ه«2ع)8 37! وغيرهماء بالإضافة إلى أنها ما 
زالت تُعْتَير أحد المصادر اللغوية التي يعتمد عليها الباحثون حتى يومنا هذا. 
ومنذ ثلاثينيات القرن العشرين؛ قدم علماء اللغة وعلماء النفس العديد من 
الأنماط اللغوية للأطفال في أعمار مختلفة. وقد وُْضعت تلك الأنماط اللغوية 
بصورة أساسية اعتمادًا على كميات هائلة من المواد اللغوية التي تَسسَجّل اللغة 
الطبيعية للأطفال. 


ب) علم اللهجات 

ارتبط علم اللهجات منذ نشأته ارتباطا وثيقا بالذخائر اللغوية؛ وقد ولد 
هذا العلم من رحم علم اللغة التاريخي المقارن الذي نشأ في القرن التاسع 
عشرء وكانت الأسباب الأولى لنشأة هذا العلم تنحصر في استخدام الوسائل 
المباشرة لتسجيل الاختلافات الصوتية داخل اللغة لعرض خريطة اللهجات 
في لغة ما. 'وكان الباحثون في البداية يحملون في أيديهم كراسات لتدوين 
ملاحظاتهم؛ ثم تلى ذلك استخدام أجهزة التسجيل الصوتيء وكانوا يُتوتون أو 
يُسَجُلون كل ما يعترضهم من مواد لغوية تَعبّر عن اختلاف اللهجات. وهذه 
المادة ما زالت مرجعًا علميًا لبعض الباحثين غير المتفرغين» ولها قيمة 
واضحة في مجال دراسة توزيع المفردات داخل اللهجات". 
(1980,وأعصوع)1"ا. 
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ج) تعليم اللغات 

يُعتَبِر كل من بونجر «عع2ه80»: وترافر «1223876, وفراين 6م1016 
)١141(‏ هم أول من استخدم الذخائر اللغوية في دراسة أساليب تعليم اللغة 
وتعلمها. وهذا يتطابق مع ما ذكره كينيدي 'زلعممع1 1!)١197(‏ من وجود 
ارتباط وثيق بين الذخائر اللغوية وتعليم اللغات الأجنبية في الخمسين سنة 
الأولى من القرن العشرين. وقال: إن المصدر الرئيس لقوائم المفزدات 
المستخدمة في تعليم اللغات الأجنبية كان تلك الإحصاءات التي تمت على 
الذخائر اللغوية في اللغات موضع الدراسة. وكان لتلك القوائم فائدة كبرى في 
توجيه عملية تعليم اللغات الأجنبية. 


د) النحو والدلالة 

قام بعض علماء اللغة بتوصيف اللغة اعتمادًا على الذخائر اللغوية مثل 
عالم اللغة فرايز (553165) )١3107(‏ الذي قدم وصفا لقواعد اللغة الإنجليزية 
قياسا على دراسة ذخيرة لغوية !58 وهذه المحاولة ت تسبق ما قام به عالم اللغة 
كويرك (!:أد0) وغيره في أواخر الثمانينيات لتأليف بومبوعة إراع اللغة 
الإنجليزية" بحوالي ثلاثين عاما. 

ه) دراسة النظام الصوتي للغة 

يعود استخدام ذخائر اللغات الطبيعية في دراسة النظام الصوتي للغة 
إلى علماء اللغة البنيويين أمثال فريدريك بواس 5.8085 وإدوارد سابير 
أم15.52 وغيرهماء فقد اهتموا بالعمل في البيئة الطبيعية للغة وأكدوا على 
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ضرورة أن ينطلق البحث اللغوي من اللغة الطبيعية ومن النظرة الموضوعية 
لها. وهذه الآراء كانت حجر الأساس الذي أرسى دعائم علم الذخائر اللغوية. 
ومع حلول الفترة الأولى من خمسينيات القرن العشرين أصبح المناخ العلمي 
مُّهِيَنَا للاهتمام بدور الذخائر اللغوية في دراسة اللغة. الأمر الذي شكل تيارًا 
قويًا في الوقت ذاته وخاصة في أميركاء على يد زيليك هاريس (3::هةة) 
وغيره من علماء اللغة البنيويين خلفاء ليونارد بلومفيلد؛ حيث اعتبروا أن 
الذخائر اللغوية هي المادة الأساسية التي يجب أن تنطلق منها دراسات اللغة» 
وكانت رؤيتهم تنصب على أن الشواهد اللغوية التي تقوم على الحدث يجب ٠‏ 
أن تأتي في المرتبة الثانية وأنها لا يُعتمد عليها في بناء النظام اللغوي ويجب 
أن تُْتَبْدل بقواعد تنطلق أسامًا من الواقع اللغوي. 
"١‏ مرحلة النحو التحويلي التوليدي لتشومسكي 

بعد ظهور النظرية النحوية لتشومسكي !”! عام ١161‏ وما تلاها مسن 
سلسلة أبحاث لغوية» حدث تغيز جذري في تاريخ تطور علم الذخائر اللغوية 
الذي تحدثنا عنه سالفًا. وتحول التيار الأساسي لمنهجيات البحث اللغوي تبعًا 
لذلك من النزعة التجريبية («دوك1:ذمد5)() إلى النزعة العقلية 
(«وتاهده:)22)!")» في دراسة اللغة. ففي تلك الفترة» احتلت نظرية ديكارت 


)١(‏ النزعة التجريبية: مذهب من يقيم المعرفة على ما تدركه الحواس وحدهاء وينكر 
وجود مبادئ فطرية في النفس وقوانين صادرة عن العقل. (المترجم) 

)١(‏ النزعة العقلية: مذهب في الفلسفة يرى أن كل شيء في الوجود مرده إلى العقلء 
ويتخذ من العقل والاستنباط معيارً! للحقيقة بدلا من المعايير الحسية. وقد أخذ بهذا 
المذهب ديكارت وهيجل وليبنز في فلسفتهم. (المترجم) 
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العقلية مكان الصدارةء وتراجعت النزعة التجريبية لتصبح كما لو أن ليس لها 
إكنائن تله إلية: ويطنيعة الأخوان لعرت يت جميع أنواع الذخائر اللغوية التي ' 
تكونت على أساس من النزعة التجريبية. ويعتقد أصحاب المذهب العقلي أن 
جزءًا كبيرًا من المعلومات اللغوية لدى الإنسان توقيفية موروثة. أما أصحاب 
المذهب التجريبي فيقفون على النقيض من هذا الرأي؛ حيث يعتقدون أن اللغة 
اصطلاحية؛ وأن معلومات الإنسان تدخل إلى عقله أولاً عن طريق الحواس» 
ثم تتكون بعد ذلك المعلومات اللغوية عن طريق بعض التصورات البسيطة 
ؤبعض المعالجات التي تتم على تلك التصورات الذهنية» وأن الإنسان عندما 
يولد لا يكون متمتعًا بالمبادئ اللغوية وأساليب معالجة اللغة. ونظرا إلى 
استقبال نظرية تشومسكي استقبالا حسنا في الأوساط اللغوية» فقد هيمنت 
النظرية العقلية على الدراسات اللغوية على مدى ستينيات وسبعينيات القرن 
الماضي ولمدة ما يقرب من عشرين عاما. 
وقد تركزت الانتقادات التي وجهها تشومسكي وزملاؤه من طلا 
النحو التحويلي التوليدي للمحاولات الأولى للبحث اللغوي باستخدام الذخائر 
اللغوية. على النقاط التالية: 
أ- وجود أخطاء في أساليب البحث اللغوي المبني على الذخائر 
اللغوية. فقد فرق تشومسكي بين القدرة اللغوية عهوهدوهة) 
(ععصعاعء محم ء والأداء اللغفوي (عع«مس دمتعم ععقدومد؛ 
حيث يُعتَقَ أن الهدف الأساسي من البحث اللغوي يقوم بشكل رئيس 
على القدرة على وضع أنماط للمعرفة اللغوية تَحَبْر عن الواقع 
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الداخلي لنفس المتحدث؛ بمعنى تقديم أنماط القدرة اللغوية» لأننا لا 
نستطيع أن نقدم وصفا وشرحا للمعلومات اللغوية لدى المتحدث إلا 
عن طريق القدرة اللغوية. أما الاستخدام اللغوي فهو الدليل 

. الظاهري على القدرة اللغوية» وهو دائمًا ما يتخطى حدود تأثير 
التحولات التي تحدث على العناصر الأساسية المُكوّنة للغة. ومن 
هنا فلا يمكن أن يكون الاستخدام اللغوي معبرًا بصورة كاملة عن 
القدرة اللغوية. ويعتقد تشومسكي أيضًا أن جوهر المعلومات اللغوية 
ما هو إلا مجموع العناصر المُكونة للغة؛ وأن أنماط التجريب التي 
تمخضت عن دراسة الذخائر اللغوية لا تقدم إلا تفسيرًا جزئيًا للقدرة 
اللغوية. ومن هناء نجد أن هذا الأسلوب في دراسة اللغة لا يتمتع 
بالقوة الكافية. 

ب- عدم كفاية المادة اللغوية؛ حيث اكتشف تشومسكي لأول مرة في 
كتاب (النظرية النحوية) أن قواعد تركيب التعبييرات في اللغة 
الإنجليزية تتسم بالاضطرادء وهذا الاضطراد يُعَبّر عن أن الجممل 
في اللغات الطبيعية ليس لها حدود؛ وبمعنى آخر أن المواد اللغوية 
ليس لها نهاية ولن تصل إلى حد الاكتمال أبذا. وقد يرت هذه 
الرؤية لعلماء اللغة التحويليين اتجاه البحث اللغوي الذي ساد طوال 
خمسينيات القرن الماضي عند علماء اللغة البنيويين. وفيما يقرب 
من عشرين سنة بعد ذلك» يمكننا القول: إن جميع علماء اللغة قد 
اتبعوا ذلك النهج في دراسة اللغة. وساد أسلوب استخدام الذخائر 
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اللغوية وفقا للرؤية الجديدة في بحث اللغة بصورة هائلة. ولكن 
على الرغم من ذلك فإن البحث في علم الذخائر اللغوية لم يصل 
إلى نهايته» بل ظهر العديد من العلماء الذين اتسموا بشجاعة علمية 
غير عادية وتحملوا أعباء لا حصر لها في سبيل تطوير علم 
الذخائر اللغوية. ففي عام 354١.ء‏ قام عالم اللغة كويرك (1:أ©) 
ببناء ذخيرة لغوية بعنوان: (دراسة مسحيّة لطرق استخدام اللغة 
الإنجليزية). وفي الوقت ذاته» بدأ كل من فرانسيز (وأعصه6)؛ 
وكوسيرا (0658ا16) العمل في مشروعهم الضخم لبناء الذخيرة 
اللغوية الشهيرة التي عُرفت باسم براون 82082 التي استغرق 
بناؤها ما يقرب من عشرين عامًا حتى اكتملت تماماء وبالإضافة 
إلى ذلك بدأ عالم اللغة جان سقارتفيك (2:4:11؟5 3988) في عام 
6 بناء ذخيرة لندن النصية المعروفة باسم ذخيرة لندن- 
لوند (كنام01© 0(تنارئآ-1:00013) على أساس من الذخيرتين 
اللغويتين السابقتين: بالإضافة إلى أنه توصل أخير! إلى بناء ذخيرة 
لغوية مُّيكنة عرفت باسم [5151. وبناءً على تلك الجهود رأى ليتش 
(1:6605:1991) أن: 'مصادر دراسة اللغة الشفهية الإنجليزية لا 
يمكن منافستها حتى الآن". وبالإضافة إلى ذلك نجد أن التعاون الذي 
تم بين خبراء الحاسب وعالمي اللغة فرانسيز وكوسيرا في جامعة 
براون قد تمخض عنه بناء أول ذخيرة لغوية يقرأها الحاسب في 
عام .١95١‏ وقد استخدمت تلك الذخيرة اللغوية عينات من اللغة 
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الإنجليزية ت تحت موضوعات مختلفة» ووصل نطا ق تغطيتها إلسى 
حوالي مليون كلمة بغرض دراسة النموذج الأميركي من اللغة 
الإنجليزية. وتعتبر هذه الذخيرة اللغوية بمثابة حجر الأساس لعلم 
النخائر اللغوية الذي تأسس في ثمانينيات القرن الماضي. 
فترة ازدهار علم الذخائر اللغوية وانطلاقه 
منذ تمانينيات القرن الماضي وعلى مدى ما يقرب من عشرين عامًاء 
تطور علم الذخائر اللغوية بصورة كبيرة ونما نموا متسارعاء وقد تمثل ذلك 


في النواحي التالية: 
أ) توالي ظهور الجيل الثاني من الذخائر اللغوية 


فمنذ ثمانينيات القرن الماضي» ظهرت مجموعة كبيرة من الذخائر 
اللغوية أشهرها الذخيرة المعروفة باسم كوبويلد 00414©: وعلى الرغم من 
كون تلك الذخائر اللغوية مختلفة فيما بينها من حيث الحجم وأسلوب التصميم 
والهدفء. فإن غالبيتها كان يعتمد على تقنية التمييز .الكهروضوئي للحروف 
والمعروفة. بتقنية 41601231!') ومن ثُمَّ تمكن العلماء من تحويل النصوص 
آليا إلى الشكل الرقمي وتحريرها من الأسلوب اليدوي الشاق الذي يعتمد 
. كتابة النتصوص باستخدام لوحة المفاتيح. إن الذخائر اللغوية التي ظهرت في 
تلك الفترة لم تتضاعف من حيث الحجم فحسبء بل زادت سرعة بنائها؛ ومن 
نَم اصطلح على تسمية تلك الذخائر بالجيل الثاني من الأخائر اللغوية. وتشير 


معتللتاء هلط سكا ماق8ط أوجزممه؟1 (1) 


36 


دراسة إحصائية غير كاملة للعالم اللغوي الأميركي إدواردز (588:8:05) من 
جامعة كاليفورنيا - بركلي نشراها عام ١131“‏ أن عدد الذخائر اللغوية التي 
طرحت للاستخدام في ثمائد نينيات القرن الماضي قد زاد عن خمسين ذخيرة؛ 
ويمكن تقسيمها حسب اللغة كما يلي: 
الإنجليزية سه 24 للفرنسية سه 4 الإٍطالية-هه 2 لدثماركية-->» 2 
الألمائية سه 4 | ١‏ الإضيائية-»> 2 لفنلنبية > 2 لسويدية » 0 
وبالإضافة إلى ذلك» نجد أن لغات مثل البرتغالية واليوغوسلافية وغير 
ذلك من اللغات قد تتابعت في إنشاء ذخائر لغوية. ومن بين أعداد الذخائر 
سالفة الذكر نعرض بالتفصيل بعضنا منها اتسم بالتميز وكبّر الحجمء كما يلي: 
)١(‏ ذخيرة لانكاستر- أوسلو - برجن 
ْ (كناط01) تاعم 18 - 0510 - «زع)ئق12393) 
تسمى هذه الذخيرة اختصارا باسم ذخيرة لوب 1,08: وقد أسسها فريق 
عمل تحت قيادة العالم اللغوي ليتش 1605 بجامعة. لانكستر الإنجليزية 
الشهيرة بغرض دراسة اللغة الإنجليزية. . وقد تم تصميم هذه الذخيرة باستخدام 
أسلوب مشابه لأسلوب بناء ذخيرة براون من حيث تقسيم المادة؛ وأسلوب 
انتقاء العينات. وقد تم الانتهاء من العمل في هذه الذخيرة عام *198. 
وتتكون هذه الذخيرة من حوالي خمسمائة عينة لغوية» يصل حجم كل عينة 
إلى ألفي كلمة. وبذلك يصل إجمالي حجم النصوص التي تحتويها تلك 
الذدخيرة 6 إلى مليون كلمةه ونظرنا إلى ذلك المشيزاك فذلفنا ما ينين اسار 
ذخيرتي لوب وبراون النصيتيْن بمثابة أختين من أصل واحد يمكن الاعتماد 
عليهما في مقارنة النموذج البريطاني والنموذج الأميركي من اللغة الإنجليزية. 
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(؟) ذخيرة النصوص الفرنسية المعروفة باسم 715 
(عمتفعصة1 عنوصمرآ دآ عل :هئ16) 
أُنْشئّت هذه الذخيرة بالتعاون بين كل من مركز البحوث العلمية التابع 
للحكومة الفرنسية وجامعة شيكاغو الأميركية؛ وقد غطت المادة اللغوية في 
تلك الذخيرة اللغوية الفترة من القرن السابع الميلادي حتى القرن العشرين؛ 
حيث ضمت ما يقرب من ألفي عينة نصية تغطي جميع الأساليب التحريرية 
في اللغة الفرنسية. ويصل عدد الكلمات في تلك الذخيرة إلى حوالي مائة 
مليون وخمسمائة ألف كلمة. وقد حُفظت تلك الذخيرة النصية في أسطوانات 
ليزر بالإضافة إلى استخدام نظام التشغيل يونكس !1 للتعامل معها وتصفحها. 


(') ذخيرة هيلسنكي النصية للمعلومات التاريخية 
(طاكتاعصكا لمعأ« مامت 4ه مدسمعه00) تعلسأماء8] عط1) 
تأسست تلك الذخيرة في جامعة هيلسنكي من خلال مجموعة من علماء 
اللغة بقيادة العالم اللغوي روسيني (00056886» وتشتمل تلك الذخيرة النصية 
على جميع النصوص التاريخية باللغة الإنجليزية في الفترة من عام ٠665م‏ 
حتى عام ٠‏ م. وقد قسمت المادة اللغوية بهذه الذخيرة إلى شرائح زمنية 
مدى كل منها مائة عام..ويصل حجم تلك الذخيرة إلى ست عشرة مليون 
كلمة. وتَعْتَِر أول ذخيرة نصية تاريخية باللغة الإنجليزية»ء ولهذه الذخيرة 
اللغوية قيمة علمية كبيرة من حيث كونها موجّهة لدراسة مدى التغير في 
اللغة الإنجليزية من خلال وجهة نظر علم اللغة الاجتماعي وعلم اللهجات 

والاستخدام اللغوي. 
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(4) الذخيرة الدولية للنصوص الإنجليزية 1017 
(طاكتاعصظط 01 عناجه0) لأمسه نم مععاس] ع1 

تولى إنشاء هذه الذخيرة قسم اللغة الإنجليزية بجامعة لندن في عام 
1384 وتهدف إلى تقديم معلومات للأبحاث المقارنة عن معدل التغير 
اللغوي في الدول الناطقة بالإنجليزية على مستوى العالم» وقد اتخذت عيناتها 
اللغوية من جميع الدول الناطقة بالإنجليزية» كما استخدمت برمجيات موحدة 
للتصنيف والتكويد. وكانت حدود المادة اللغوية من كل دولة حوالي مليون 
كلمة مقسمة بالتساوي بين المستويين التحريري والشفهي. واستغرق جمع 
محتويات تلك الذخيرة النصية ثلاث سنوات من ١59٠‏ إلى 1559. 
بالإضافة إلى أن نطاق المادة اللغوية كان يستهدف الأشخاص البالغين الذين 
يتجاوز عمرهم ١8‏ عاما وتربوا على اللغة الإنجليزية منذ صغرهم. 

والجدير بالذكر أن مجموعات العمل المُكلفة بإشاء ذخائر لغوية 
بالصين كانت تتزايد بصورة متوالية؛ كما أن الأبحاث اللغوية والمسح اللغوي 
القائم على ذخائر نصية كان يتزايد باضطرادء مثل الدراسات الإحصائية التي 
تمت على ذخائر لغوية كبيرة الحجم للتعرف على معدل تكرار الرموز 
والكلمات في اللغة الصينية. وقد خرج عن تلك الدراسات نتائج علمية 
ملوسنة من أهنها (قائمة لأرهون الأكتن كدان فد اللشنة التطرتية 
الحديثة)ء و(معجم معدل تكرار الكلمات في اللغة الصينية الحديثة). وسوف 
نتحدث بالتفصيل عن بناء الأنواع المختلفة من الذخائر اللغوية في الصين 
بصورة أكثر تفصيلاً في الباب الأخير من هذا الكتاب. 
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ب- زيادة الأبحاث العلمية القائمة على ذخائر لغوية 
لقد أدى إنشاء الذخائر اللغوية إلى دفع الأبحاث اللغوية القائمة على 
تلك الذخائرء ويمكننا بوضوح أن ذ ذلك من خلال الإحصاءات المبيّنة في 
الجدول التالي: 
جدول :1-١‏ إحصاء بالأبحاث القائمة على ذخائر 
لغوية في الفترة من ١959‏ إلى ١195١‏ 


جوهانسون (1991:هموقسهطه3) 


الفترة الزمنية 
9 - 1965 
6 - 1970 
1 - 1975 
6 - 1980 
1 - 1985 
6 -1991 


وتشير الحقائق إلى أن الذخائر اللغوية الإلكترونية قد قدمت مصادر 
رائعة وسّعّت مجالات البحث اللغوي. وذلك نظرًا إلى أن المادة اللغوية التي 
تقدمها تتصف بالواقعية بالإضافة إلى وضوح التكوين الهيكلي لها؛ ومن ثم 
أصبحت تلك الذخائر خير مُعين على تقديم وصف لغوي متعدد المستويات؛ 
بالإضافة إلى أنها ساهمت في تطوير الأبحاث المقارنة بين الأساليب اللغوية 
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المختلفة» والأكثر من ذلك أنها أسهمت أيضًا في عمل الدراسات الإحصائية 
الكمّية عن اللغة. 

وفي تلك الفترةء توصلت العديد من الأبحاث اللغوية إلى نتائج علمية 
مهمة» منها ما تمكن من تعميق نتائج الدراسات الموجودة بالفعل» ومنها أيضنًا 
ما وسّع مجالات البحث اللغوي المتعارف عليها. مثل دراسات تحو 
الاحتمالات التي قدمها هاليداي (83111423) عام 1191531١‏ وسقارتفيك 
(11:ة؟5) عام .!!!1!١337‏ وغيرهما. وكذلك الدراسات المتعلقة بخصائص 
اللغة الإنجليزية التي قدمها دوتي 20484 عام 2١451‏ بالإضافة إلى الدراسات 
الإحصائية التي قدمها سينكلي (15هام51) وغيره عام ١145‏ عن تراكيب 
اللغة الإنجليزية. 

أما عن أسباب ازدهار علم الذخائر اللغوية في اللغة الإنجليزية مع 
بداية ثمانينيات القرن العشرين فهناك العديد من الآراء نستطيع أن نوجزها 
في النقطتين التاليتين: 

)١(‏ إن تطور علوم الحاسب وانتشار التقنيات والتطبيقات الإلكترونية 
قد أرسى دعائم وأُسُمًا قوية لتطور علم الذخائر اللغوية ونموه. فمنذ 
ثمانينيات القرن الماضيء دخلت الذخائر اللغوية دورة ممتازة من 
أطوار التطور؛ فقد ساهم النمو الهائل في سرعة الحاسب وقدرته 
على تخزين المعلومات في الإسراع ببناء الذخائر اللغوية: 
بالإضافة إلى زيادة القدرة على معالجتهاء وتعدد مستويات 
المعالجة. ومن جهة أخرىء نجد أن القدر الهاتل من البيانات التي 


41 


تم ترميزها ومعالجتها قد دعم أبحاث الذخائر اللغوية وطوّرها 
وعظم من فرص الاستفادة منها. وفي تلك الفترة»ء ظهرت أيضنًا 
وسائل بحثية متطورة ولغات برمجة ساهمت في ابتكار برمجيات 
حديثة حولت مجرى الدراسات الإحصائية ومعالجة اللغفة من 
الأسلوب اليدوي إلى أسلوب مُمَيْكنَ أو نصف مُمَيكّنَ. ومن هنا يبدو 
لنا جِليا الدور المهم للحاسب في ذلك التطور والنمو. 

)١(‏ ثبت أن بعض النقد الذي وجهه علماء مدرسة النحعو التحويلي 
التوليدي لعلم الذخائر اللغوية كان خاطئاء مثل الرأي الذي يتهم 
تقنية الحاسب أنها تقنية خادعة؛ بالإضافة إلى أن عددًا آخر من تلك 
الآراء النقدية كان سطحيّاء على سبيل المثال ذلك الرأي الداعي إلى 
الإنكار الكلي لقيمة الذخائر اللغوية؛ وبعضه كان صحيمًا مثشل 
الرأي القائل: إن عدد الجمل التي تتكون .في إطار اللغة لا متناهي. 
أما بالنسبة إلى الرأي الداعي لاتخاذ المذهب العقلي في دراسة 
اللغة» فقد أثبت تدريجيًا بعض القصور بعد أن اتبعه العديد مسن 
العلماء وطبقوه وأعملوا فيه فكرهم؛ وتَمَثْل ذلك القصور في العجز 
عن التحقق من الفرضيات اللغوية العقلية التي يضعها العلماء 
وإثباتها وغير ذلك. ولذلك فقد عبر علم الذخائر اللغوية منذ نشأته 
في ثمانينيات القرن العشرين بصورة واسعة عن أن مجال البحث 
في علم اللغة متسع وشاسع. ويعني ذلك استعادة التنوازن بين 
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فلماذا لا يتم الجمع والتكامل بين العنصرين في البحث اللغوي حتى 
يمكن الاستفادة من مميزات كل منهما. ولكي يمكن الوصول إلى 
ذلك التوازن النافع دعا العديد من علماء اللغة إلى ما يلي: 
'المادة اللغوية تلعب دور محوريًا في النظريات اللغوية» وهناك العديد 
من المسارات التي يمكن اتباعها لتطوير تلك المادة... ولا يمكن القول بوجود 
طريقة واحدة". هاليداي (112111022:1991). 
"من وجهة النظر العلمية» يمكن القول: إن أسلوب الذخائر اللغوية هو 
الأسلوب الأقوى في دراسة اللغة» نظر! إلى أن النتائج التي يتم التوصل إليها 
يمكن قياسها والتحقق منها". ليتش (1993:طعءع».1). 
حتى إننا نجد عالمًا مثل فيلمور (©:31120): والذي وجه انتقادات 
كبيرة إلى علم الذخائر اللغوية» يكتب ما يحمل معنى الاعتراف بفضل 
. الذخائر اللغوية على العلوم اللغوية: 'عَلّني أعتقد عدم وجود الذخيرة النصية 
التي تقدم معلومات كاملة عن قواعد اللغة الإنجليزية ومفردات... ولكن في 
الحقيقة أنه في كل مرة أطّلع على نتائج معالجة لذخيرة نصية مهما كان 
حجمها أجد أنها قدمت ما لا يمكن أن تقدمه أية طريقة أخرى. وخلاصة 
قولي في هذا الأمر هو أن كلا المذهبين يحتاج كل منهما إلى الآخر". فيلمور 
(1992بع«مسطللة). 
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الفصل الثالتٌ 
توجهات التطوير وآفاقه في علم الذخائر اللغوية 


تحدث العديد من العلماء المتخصصين في علم الذخائر اللغوية في 
السنوات الأخيرة عن آفاق التطور في ذلك العلم بصورة مستفيضة؛ مثل 
سثارت فيك الذي تنبأ قائلاً: 'سوف يصاحب ذلك ازدياد في حجم الذخائر 
اللغوية وتححّسن في جودتهاء وسوف يرتفع معدل اس تخدامها" 
(1992:كاتجامة؟8). ١‏ 

أما ماكنريء فعلى العكس من ذلك يرى أن تطور علم الذخائر اللغوية 
سوف يتأثر تطوره بأربعة عوامل هي: نطاق الذخائر اللغوية وأنواعها ومدى 
اهتمام الدول بهاء ومعدل تطور الحاسبات الآلية (614»556:3:1996. أما 
بالنسبة إلى الوضع الراهن للأبحاث اللغوية القائمة على الذخائر اللغوية» فقد 
وجدنا أن الآراء حول توجهات التطور في ذلك 0-6 سوف تتمثل في 
النواحي التالية: 


١‏ - تطور الاعتماد على الذخائر اللغوية 


الذخائر اللغوية؛ نظر! إلى زيادة الوعي بقيمة المصادر اللغوية القومية؛ 
وظهر ذلك السعي بصورة أكبر بين دول أوروبا انطلاقا من رغبة الحكومات 
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والهيئات العلمية بتلك الدول في الحفاظ على لغاتها القومية» مثل جامعة 
أكسفورد الإنجليزية التي أصدرت الذخيرة اللغوية القومية بالتعاون مع جامعة 
لانكستر ومؤسسة رومانس الإنجليزية للطبع والنشر والمكتبة الملكية 
الإنجليزية وغير ذلك من الهيئات؛ ومثل هيئة الثقافة والعلوم والتربية اليابانية 
التي كونت مجموعة عمل من ثلاثمائة خبير عام ١949‏ قضوا خمسة أعوام 
في بناء الذخيرة اللغوية للغة اليابانية؛ وقد سُجّلت هذه الذخيرة على عدد ١؟‏ 
أسطوانة ليزرء من بينها عدد 1 أسطوانات لغوية وعدد ” أسطوانات 
للمعلومات. وسوف يستمر البحث في بناء مثل هذا النوع من الذخائر اللغوية. 
ويأتي ترميز الذخائر اللغوية في المرحلة التالية بعد إنشائها. وهناك من يعتقد 
أن السنوات المقبلة سوف تستفر عن ظهور ذخائر لغوية صغيرة الحجم. 
لأغراض محددة:. مثل الذخيرة اللغوية التي أنشأها شورت لدراسة أساليب 
التعبير عن اللغة والفكر (588054:1996). وبالإضافة إلى ذلك فإن الذخائر 
اللغوية المبنية على اللغة الشفهية ينبغي أن تتطور بصورة أسرع حتى يمكن 
التغلب على حالة عدم التوافق بين الذخائر اللغوية التحريرية والذخائر 
الشفهية» ومن أجل دفع الدراسات المتعلقة باللغة الشفهية. وقد توقع ولسون 
أنه في المستقبل القريب سوف نجد ذخائر نصية متعددة الوسائط 
(17111500:1996). 
تطور أساليب ترميز المواد اللغوية 

يُقصد بترميز الذخائر اللغوية وضع أساس لإجراء تحليل متعدد الأبعاد 
والمستوياتء بالإضافة إلى أن المستفيد النهائي من ذلك الترميز لا يكون 
بالضرورة هو الشخص الذي قام بعملية الترميز في البداية؛ ومن ثم نستطيع 
القول: إن الاستخدام الأمثل للذخائر اللغوية يعتمد بدرجة كبيرة على 


46 


مستويات الترميز وجودته داخل تلك الذخائر. ولذلك فإن القوة المُحَرّكة 
لتطور ترميز الذخائر اللغوية يجب أن تتضمن الشروط التالية: 

)١(‏ السعي قدر الإمكان إلى تدوين وتوثيق حدود الترميز وأنظمته التي 
تظهر في تحليل اللغة؛ على سبيل المثال ما قام به كل من 
جوهاسون (73011825502:1982)؛» وسامبسون (58132501:1987) من 
وضع معايير قياسية لأنظمة التحليل اللغوي» وتحوي اللغة الصينية 
نظامًا لترميز أنواع الكلمات وتقسيمها داخل النصوص الصينية("). 

(؟) ضرورة التوافق بين أنظمة التحليل المختلفة:؛ بمعنى محاولة 
استخدام علامات معروفة لدى الجميع؛ وتقديم المطوعات اللمزنمة 
للتحويل من نظام ترميز إلى نظام آخر. 

(؟) لا يوجد توازن بين مستويات تطور أنظمة الترميز على مستويات 
اللغة المختلفة. فالمستويات الأسرع تطورً! هي عمليات الترميز 
على مستوى المفردات ومستوى النحو ومستوى الصوتيات 
ومخارج الأصوات وغير ذلك. وينبغي الاهتمام بصورة أكبر من 
الآن فصاعذا بأنظمة الترميز على المستويين الدلالي والوظيفي. 

*- تطور أدوات معالجة المادة اللغوية 

يعتمد تحليل المادة اللغوية على بنية الحاسب بصورة أساسية؛ ويُقصد 

ببنية الحاسب تلك الأدوات والبرمجيات التي تقوم بالبحث ومعالجة المادة 

)١(‏ نظر! إلى طبيعة اللغة الصينية التي تتكون كلماتها من رموز وليس من حروف 
كاللغات الأبجدية يحتاج الحاسب دائمًا إلي وسائل برمجية لتمييز حدود الكلمات 
وفصلها عن بعضها في النصوص المكتوبة باللغة الصينية. (المترجم) 
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اللغوية وتطوير استخدام أساليب علم الإحصاء في بناء أدوات فعالة لعمل 
المعالجة الآلية للغة» من أجل زيادة فاعلية الباحثين وإنتاجيتهم في مجال 
البحث اللغوي. وعلى الرغم من أن برمجيات المعالجة المتاحة حاليًا قليلة 
العدد؛ فإن معظمها تمت صياغته لمعالجة ذخائر لغوية محددة؛ ونطاق 
استغلالها محدود للغاية ولا يمكن تعميم استخدامها. 
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الفصل الرابع 
دور الحاسب في علم الذخائر اللغوية 


إذا تم التحليل اللغوي على نصوص كبيرة الحجم بصورة يدوية فمن 
السهل حدوث أخطاءء ومن الصعب الانتهاء من عملية التحليل» بالإضافة إلى 
زيادة إمكانية التكرار وغير ذلك من الصعوبات. وعلى الرغم من أن هذه 
الطريقة في البحث اللغوي قد قدمت إسهامات عظيمة للدرس اللغوي على 
مدى عدة قرون مضت وخاصة في مجال تأليف المعاجم؛ فإن ظهور الحاسب 
الآلي مع منتصف القرن العشرين قد أدى إلى حدوث تَغيْر جذري في مجال 
الدراسات اللغوية القائمة على النصوص اللغوية. ودفعتنا ثورة المعلومات إلى 
تغيير أساليب العمل القائمة على المواد اللغوية بصورة جذرية. ولم تعد هناك 
حاجة إلى استخدام البطاقات في جمع المواد اللغوية وتصنيفها؛ حيث أصبح 
مصممو المعاجم وعلماء اللغة يلجئون إلى استخدام الحاسب في تخزين 
كميات هائلة من النصوصء ويمكنهم أيضنًا البحث عن المفردات أو العبارات 
أو الجمل وإظهارها على شاشة الحاسب بسرعة دون أدنى خطأ. والأكثر من 
ذلك أنه يمكن إعادة التصنيف والترتيب بناءً على أكثر من أسلوب مثل 
تصنيف الكلمات طبقا لأساليب الاقتران فيما بينها أو الطبيعة النحوية لكل 
منها. ولذلك أصبح هناك ارتباط وثيق بين الحاسب وعلم الذخائر اللغوية. 
والحقيقة الث لا موا فيه هن أن الدتكدام :الحاشب: بالفكل: ف جعل: التدينة 
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اللغوي القائم على الذخائر اللغوية يتسم بالسرعة والدقة والقدرة على معالجة 
نصوص ذات أحجام هائلة. إن استخدام برمجيات الحاسب لم تقلل فقط من 
العبء اليدوي الذي كان يبذله علماء اللغة في تأليف المعاجم ومعالجة 
الكميات الكبيرة من المواد اللغوية؛ ولكن تلك البرمجيات قللت أيضًا من 
العوامل البشرية التي تؤدي إلى الخطأ في أثناء العمل. وبالإضافة إلى 
إمكانات الحاسب التي سبق الإشارة إليها من حيث القدرة على تصنيف المواد 
اللغوية وإحصائها وترتيبهاء يستطيع الحاسب أيضنًا أن يقدم إحصاءات سليمة 
عن معدل تكرار تلك المواد داخل النصوصء بالإضافة إلى أن تلك 
الإحصاءات الرقمية تمكننا من تكوين معلومات قياسية عن اللغة ثم تطبيقها 
واستخدامها في عمل برمجيات كتابة الرمؤز الصينية باستخدام الحاسب!" أو. 
تلك التي استخدمت في تمييز الأصوات اللغوية أو فهرسة النصوصء وغير 
ذلك من البرامج التطبيقية التي اعتمدت على المعلومات اللغوية كأساس لها. 
كما يُسْتَخْدم الحاسب الآلي في تعظيم قدرات علماء اللغة في البحث 
اللغوي» وبذلك يتمكن هؤلاء العلماء من تنويع إمكانات استخدام اللغفة 
وتدعيمها في عمل تطبيقات لغوية متقدمة. إن الدراسات الكمية المعتمدة على 
الذخائر اللغوية في حقل اللسانيات تساهم في زيادة الوصف العلمي للظواهر 


)١(‏ اعتماذا على المعلومات الإحصائية التي تمت على ذخائر لغوية للتعرف على معدلات تواتر سلاسل 
الرموز والكلمات داخل النصوص الصينية تمكن العلماء الصينينون من عمل برمجيات لكتابة اللغفة 
الصيئية على الحاسب تقوم بإدخال جمل كاملة إلى الحاسب دفعة واحدة عن طريق كتابة الأحرف 
الأولى لنطق الكلمات داخل تلك الجملء وبذلك احتلت اللغة الصينية مركز الصدارة بين لغات العالم من 
حيث كونها أسرع لغة تكتب على الحاسب. (المترجم) 
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اللغوية وتعميقه؛ بالإضافة إلى زيادة الارتباط بين ذلك الوصف وعمل 

تطبيقات اللغوية المختلفة في جميع المجالات. ومن بين تلك التطبيقات 
اللغوية الترجمة الآلية» والتحويل بين الأشكال النصية المختلفة (مثل تحويل 
النصوص المكتوبة إلى مكافئها الصوتي وهي تلك التقنية المعروفة اختصارًا 
بأسم 115 (20ناه50 10 2 وتحليل المحتوىء. وتعليم اللغات وغير ذلك 
من المجالات التي نَعْتَبَر المستفيد الأول من تطبيقات التحليل الكمي لل ذخائر 
النصية. 
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إن تحقق الحلم بمعالجة النصوص اللغوية باستخدام الحاسب إنما يرجع 
إلى سبعينيات القرن العشرينء وقد نشر العالم جوف دندانكوتي في مجلة 
'"الدر اسات الحاسوبية للأدب واللغة" عنونمعمنة لصسة بونومعائن)) 
((عه مده" مقالاً يتوقع فيه أوان عصر معالجة اللغات باستخدام الحاسب 
بدلاً من الممارسة اليدوية للإنسان. وقد قضى هذا العالم هو وتلاميذه ست 
سئوات من العمل الشاق تمكن. بعدها.من تقديم معالجة وإدارة معلوماتية لنن 
لغوي يصل إلى ثلاثماكة ألف كلمة باس تخدام الحلاسب الآلي 
(17::1973 4 نكأسهلصةهه). 5 ى علماء لغة الذخائر اللغوية في عصرنا 
الحالي أن استخدام الطرق اليدوية في تدوين النتصوص على الورق أصبح 
من الطرق العقيمة» وأن تلك الأعمال الشاقة يمكن الاستغناء عنها باس تخدام 
لوحة المفاتيح التي يتم إدخال المعلومات من خلالها إلى الحاسب الآلي. 

في منتصف ثمانينيات القرن العشرين أصبح بمقدور علماء الذخائر 
اللغوية إنهاء العمل في إدارة المعلومات اللغوية داخل حاسبات كبيرة الحجم 
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بسرعة نسبية» وقد كان مثل ذلك العمل يحتاج وقنا طويلا في السبعينيات؛ 
حيث كان الحاسب يستغرق ما يزيد عن ساعة للبحث عن معدل تكرار كلمة 
مثل "7965" في ذخيرة لغوية يصل عدد كلماتها إلى مليون كلمة؛ أما مع 
حاسبات الثمانينيات فقد أصبح هذا العمل لا يستغرق أكثر من عدة دقائق. أما 
الآن فبإمكان الحاسبات الشخصية أن تحتوي أقراصا صلبة ذات سعة تخزينية 
كبيرة ووحدات معالجة ذات سرعة هائلة ويمكنها القيام بأعمال تخزين 
وتحليل للنصوص بصورة أكثر سهولة وملائمة. 

وقد سبق أن ساهم خبراء الحاسب في بداية ثمانينيات القرن العشرين 
في حل بعض الإشكاليات الفنية التي كانت تعترض علماء الذخائر اللغوية في 
مجال استخدام الحاسب في التحليل اللغوي. ومع بداية التسعينيات ساهم 
التطور السريع للحاسبات والبرمجيات المتخصصة في تحليل الذخائر اللغوية 
وتسويقها بصورة تجارية في إزالة الخوف أمام العلماء وتشجيعهم على 
استخدام الحاسب وابتكار البرمجيات المساعدة على تحليل الذخائر اللغوية. 
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الفصل الخامس 
مجالات البحث في علم الذخائر اللغوية 


المستهدف الأساسي من علم الذخائر اللغوية هو النصوص اللغوية»؛ 
وهذه النصوص هي المصدر الرئيس في تقديم الوصف والبراهين اللغوية. 
ومن بين أنواع ذلك الوصفء تقديم الوصف الكمي لتوزيع المفردات 
والتعبيرات داخل اللغة. وهذا المنحى البحثي تطوّر تدريجيًا ليصبح أحد 
المكونات الأساسية التي لا غنى عنها في الدراسات اللغوية» وهذا يتشابه 
تمامًا مع ما أشار إليه ليتش ع©1,6 عام ١137‏ قائلاً: 'إن الهدف من البحث 
اللغوي هو وصف الاستخدام اللغوي وليس وصف القدرة اللغوية؛ لأن متابعة 
الطبيعة اللغوية ومراقبتها وسط بيئة الاستخدام هي التي تؤدي إلى ظهور 
النظرية اللغوية وليس العكس". ٠‏ 


ومن ثُمَّ نجد أن علم اللغة يختلف عن النظرية اللغوية عند التحويليين 
التوليديين فهذا العلم ليس نظرية لغوية» ولا يمكن أن نطلق عليه أنه فرع 
مستقل أو جديد من أفرع علم اللغة» وإنما هو الوسيلة المنهجية التي يتبعها 
علماء اللغة في إجراء البحوث اللغوية. إن علماء اللغة في أثناء بحثهم في 
جوهر اللغة وعناصرها وأبنيتها ووظيفتها يحتاجون إلى أدلة وقرائن لغوية 
لوصف ما هو ممكن داخل اللغة. وهذه القرائن اللغوية يستخلصها علماء 
اللغة من مراقبتهم ودرسهم للظواهر اللغوية في عصور مختلفة» ويتأتى ذلك 


33 


ما عن طريق الاستقراء والجمع وإما عن طريق مراقبة اللغة ووصفها في 
مستوييها الشفهي والتحريري. وفي الدراسات القائمة على الذخائر اللغوية 
يمكن استخلاص تلك الحقائق بصورة مباشرة من النتصوص. وفي تلك النقطة 
نجد أن علم الذخائر اللغوية يختلف عن النظرية اللغوية التي تعتمد على 
القرائن الجدلية والمنطقية التي يتبعها علماء اللغة التقليديُون» فعلم الذخائر 
اللغوية لا يقدم احتمالات ظهور المفردات والأبنية والوظائف المختلفة داخل 
أللعة فحيتة بن ركم لجنا مد لاك ظيو ظك تور اللغوية داخل اللغة. 
وهذا العلم يتشابه مع باقي علؤم اللغة في كونه يبحث في طبيعة اللغة وأبنيتها 
ووظيفتها كما يبحث أيضنًا في وسائل اكتساب اللغة والتحول اللغوي وتَغير 
اللغة. ونقاط التركيز في هذا العلم هي المفردات والوظائف النحوية لتلك 
المفردات وليس النحو بمعناه الضيق. 
١‏ - إنشاء الذخائر اللغوية وتصميمها 

الذخائر اللغوية هي المصدر الذي يمد علم الذخائر اللغوية بالمادة 
اللغوية؛ ولذلك فإن تصميم الذخائر اللغوية وتأليفها هو أساس البحث في هذا 
العلم. وهذا التصميم يضم في معناه تصميم الذخيرة اللغوية ذاتهاء ووسائل 
جمع المادة اللغوية وتسجيلها وإدارتها. ولا يُقصد بالذخيرة اللغوية ذلك 
التجميع السطحي للنصوصء وإنما يقصد به أن تكون تلك النصوص معبّرة 
عن اللغة بصورة عامة» أو في أحد التخصصات. ولذلك فعند تصميم ذخيرة 
لغوية ينبغي أن تكون البداية بالعمل طبقا لهدف عام يحكم بناء المادة اللغوية 
والتفكير بصورة دقيقة في المبادئ التي ستتَبّع في اختيار العينات اللغوية 
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وتوزيع تلك العينات داخل إطار اللغة؛ وذلك لنتمكن قدر المستطاع من جعل 
تلك الذخيرة اللغوية تمثل اللغة في فترة زمنية محددة. 

ونظرا إلى عدم وجود مؤشرات كمية ثابتة توضح لنا الشروط التي 
يمكن معها اعتبار العينات اللغوية ممثلة للغة في إطارها الأشملء فليس أمامنا 
إلا أن نستعين بتجاربنا الذاتية وخبرات من سبقونا في بناء الذخائر اللغوية. 
وانطلاقا من هذا المفهوم؛ يمكننا أن نقرر أن قواعد اختيار العينات اللغوية 
ونسب توزيعها داخل إطار اللغة من الموضوعات التي يتوقف عليها تطور 
الذخائر اللغوية التي لم يتم التوصل إلى حلول وإجابات لها حتى الآن. 
وبطبيعة الحال» فإن نطاق الذخائر اللغوية ومقاييس حفظها وتخزينها وما إلى 
ذلك تعد قضايا مطروحة ويجب الإجابة عليها في أثناء عملية إنشاء الذخائر 
اللغوية. ومن دون ذلك لا يمكن أن نجعل من الذخائر اللغوية مصادر حقيقية 
يمكن الاعتماد عليها في دراسة اللغة بصورة شاملة ومتكاملة. 


" تقنيات إدارة الذخائر اللغوية ومعالجتها 

يقصد بذلك تلك الأدوات البرمجية التي سُسْتّخدم في تحليل المادة اللغوية 
وترميزهاء وحمايتهاء وفهرستها. فالذخيرة النصية لا تقتصر فقط على كونها 
وعاءً يحتوي نصوصنا لغوية» وإنما ينبغي أن تتمتع بقدرات متميزة في 
التخزين والاسترجاع؛ حتى يمكن أن تتيح لجميع الباحثين فرصة الحصول 
على المعلومات التي يرغبون فيها من المادة اللغوية المخزنة داخل الذخيرة 
اللغوية؛ ولذلك فإن فهرسة المواد اللغوية من الأعمال المهمة. ومن أشهر 
التقنيات المستخدمة في الفهرسة تلك التقنية المعروفة باسم م درو . 
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لقد حدث تَحَوّلَ هائل في نطاق الذخائر اللغوية وأنواعها وسهولة 
التعامل معها وغير ذلك طبقًا لزيادة فاعلية أداء الحاسبات. وبالفعل» حدث 
تطوير لعدد كبير من البرمجيات التي تقوم بمعالجة البيانات وتداولها داخل 
الذخائر اللغوية. إلا أن قيمة الذخيرة اي باعتبارها مصدرا للمادة اللغوية 
موضع البحث لا يمكن أن ثقاس فقط من حيث الحجمء وإنما ينبغي أن يكون 
عنصر الترميز فيها هو المصدر الذي يحمل قيمة مضافة إلى الذخائر. بمعنى 
أن يتم ترميز الذخائر اللغوية بأساليب مختلفة» وعن طريق تلك الوسائل 
الترميزية يمكن تعظيم نطاق المعلومات وتوسيعه داخل الذخيرة بصورة 
واضحة. ومن ثُمَّ نقدم إنجازات أكثر قيمة للباحثين في.مجالات اللغة كافة. 
وبالنسبة إلى الذخائر اللغوية الصينية فإن عملية تمييز حدود الكلمات!') تعتبر 
بخلاف باقي اللغات الهندأوروبية هي الخطوة الأولى التي تَبْنَى عليها جميع 
مستويات المعالجة اللغوية» ثم تأتي بعد ذلك مستويات المعالجة الأخرى التي 
تتم مع تلك اللغات؛ مثل: الترميز على مستوى نوع الكلمة» والترميز على 
مستوى دلالة الكلمات ودلالة الجمل؛ والترميز على مستوى النحوء بالإضافة 
إلى الترميز على مستوى الفقرات والنصوص الكاملة» وغير ذلك من عمليات 
المعالجة. 1 


)١(‏ بمعنى إضافة مسافة تفصل بين الكلمات وبعضها داخل النصوص الصينية» نظرًا إلى 
طبيعة اللغة الصينية التي تتكون من رموز متراصة مع بعضها دون مسافات؛ ويعتمد 
القارئ على خبرته اللغوية في وضع تلك الرموز معا في إطار كلمات» أما في حالة 
التعامل الحاسوبي مع اللغة الصينية فتكون هناك حاجة ماسة لوجود تلك 
المسافات. (المترجم) 
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*- استخدام الذخائر اللغوية في البحث اللغوي 

"إن ظهور العديد من وسائل تطوير معالجة المادة اللغوية واستخراج 
المعلومات اللغوية من بين النصوص قد زاد وعمّق قدرتنا على معرفة اللغة 
وفهمها". هاليداي (121)13121114:1991! لقد قَنّمَت الذخائر اللغوية مسصادر 
معلومات قيمة مَكَنَتَ العلماء من وصف اللغة» وقد استطاع علماء اللغة تقديم 
وضف للمفردات والقواعد داخل اللغة اعتمادًا على تلك الذخائر اللغوية 
المّخَزّنة على وسائط إلكترونية؛ وذلك استنادًا إلى فرع اللغة الذي يتخذ من 
النخائر اللغوية نقطة ارتكاز له. ولم تقتصر موضوعات الدراسة على مراقبة 
إمكانات ظهور الكلمات داخل النصوصء بل تطرقت إلى دراسة حالات 
ظهور تلك الكلمات أيضًا. وبالنسبة إلى الدراسات المتعلقة بتوزيع المفردات 
والقواعد داخل النصوصء فقد ساهمت الذخائر اللغوية في دفع بحوث 
تصنيف النصوص. والتحول اللغوي وتلك الدراسات المتعلقة بتغير أشكال 
اللغة. وعن طريق استخلاص المعلومات من مواد لغوية كبيرة الحجم؛» قدمت 
الذخائر اللغوية معلومات وافرة عن السياقات النصية من شأنها أن تخدم 
مجال الدراسات الدلالية للغة. ' 


+ - تطبيقات الذخائر اللغوية في علم اللغة الحاسوبي 
إن التطبيقات التي يقدمها الوصف اللغوي القائم على الذخائر اللغوية 


هي ذلك المجال المليء بالإبداع العلمي والتطبيقي في علم الذخائر اللغوية. 
فمن الممكن استخدام نتائج البحث في علم الذخائر اللغوية لعمل تطبيقات في 
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معالجة اللغات الطبيعية وتمييز الأصوات اللغوية ونظم الترجمة الآلية. ومع 
بداية التسعينيات» شغلت الدراسات الإحصائية التي تمت على ذخائر نصية 
كبيرة الحجم مركز الصدارة تدريجيًا في مجالات معالجة اللغات الطبيعية. 
مجمل القول: إن فريقا من العلماء في علم الذخائر اللغوية يتولى البحث في 
أساليب تصميم الذخائر اللغوية ومنهجياتهاء وهناك فريق آخر منهم مهتم 
بالبحث في وسائل تحليل النصوص ومنهجيات معالجتهاء وهناك فريق ثالث 
وهو القسم الأكبر الذي يهتم بالبحث في توصيف اللغة داخل الذخائر اللغوية 
وبحث تطوير التطبيقات القائمة على ذلك. 
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الفصل السادس 
حول إعداد هذا الكتاب 


الباب الأول: من هذا الكتاب يُعرف القارئ بالمفاهيم الأساسية حول 
علم الذخائر اللغوية» ويستعرض بصورة مبْسّطة تاريخ تطور هذا العلم» 
بالإضافة إلى شرح لمجالات البحث في علم الذخائر اللغوية. أما الأبواب 
التالية من الكتاب فتتناول تلك المجالات بمزيد من الشرح والتحليل. 

الباب الثاني: يتناول بالتفصيل بناء الذخائر اللغوية ويتعرض بمزيد من 
التعمق لبعض القضايا التي يجب أخذها بعين الاعتبار عند العمل في الذخائر 
اللغوية؛ بغرض إقرار بعض المبادئ الواجب توافرها عند بناء الأنواع 
المختلفة للذخائر اللغوية» وفي نهاية الباب عرف بعض ال ذخائر اللغوية 
المهمة داخل الصين وخارجها. 

أما الباب الثالث: فيتعرض للتقنيات الخاصة بإدارة الذخائر اللغوية 
ومعالجتها في إطار ثلاثة محاور أساسية: تقنيات فهرسة الذخائر اللغوية 
(فهرسة الكلمات)» وأساليب الإحصاء المستخدمة مع الذخائر اللغوية» وترميز 
الذخائر وما إلى ذلك. وتعتبر النقطة الثالثة هي المحور الرئيس لهذا الباب. 

أما الباب الرابع: فيتناول الدراسات اللغوية القائمة على الذخائر اللغوية 
ويتعرض إلى وسائل الوصف الكمي المستخدمة في وصف المستويات 
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المختلفة للغة بغرض التعبير عن خصائص اللغة عند الاستخدام. وفي 
النهاية» يقدم هذا الباب بعض الأمثلة الحقيقية عن تطبيقات الذخائر اللغوية 
على اللغتين الصينية والإنجليزية. 

ويركز الباب الخامس: على تطبيقات علم الذخائر اللغوية في مجال 
علم اللغة الحاسوبي؛ بمعنى كيفية الاستعانة بنتائج البحث في علم الذخائر 
اللغوية لعمل تطبيقات تخدم مجالات معالجة اللغات الطبيعية كافة. 
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الباب الشاني 
تصميم الذخائر اللغوية وتطويرها 


6 


إن أول مَهْمّة يُكلّف بها من يعمل في حقل علم الذخائر اللغوية هي 
عملية بناء الذخيرة» ومن هنا ينبغي له أن يَتَخذْ مجموعة من القرارات 
الحاسمة بشأن المادة اللغوية التي ستتضمنها الذخيرة اللغوية ووسائل جمسع 
تلك المادة وغير ذلك من الإجراءات؛ هذا بالإضافة إلى ضرورة أن يتمتع 
من يقوم ببناء الذخيرة على القدرة على التحكم في المشاكل التي قد تظهر في 
مراحل إدارة الذخيرة اللغوية بعد تأسيسها. أما علماء اللغة الذين يتعاملون مع 
الذخيرة بعد بنائها فعليهم أن يتمتعوا بالقدرة على معالجة جميع الأمثلة اللغوية 
التي تظهر في الذخيرة اللغوية. 


63 


الفصل الأول 


تصميم الذخائر اللغوية وإشكاليات تجميع المادة اللغوية 

إن الغرض الأساسي الذي يسعى إليه علماء اللغة من إنشاء الذخائر 
اللغوية هو استخدام تلك الذخائر في عمليات استقراء التراكيب اللغوية 
وتحليلها والتعرف على طرق استخدامهاء فقد انتبه جوهانسون !14)١194(‏ 
في منتصف تسعينيات القزن العشرين إلى أن أكثر فعل يقترن مع كلمة 
"كنام:0©" هو فعل "1أم0022" بمعنى تجميع» وبالفعل فقد كانت عملية 
تجميع المادة اللغوية داخل الذخائر اللغوية ووضع هيكلية بنائها وتحديد نطاق 
الذخائر اللغوية من الموضوعات التي ظلت تشغل علماء الذخائر اللغوية 
طوال الفترة من ستينيات حتى سبيعنيات القرن العشرين. 

إن نقطة الانطلاق التي تبدأ منها عملية تصميم الذخائر اللغوية 
وتجميعها هي: كيفية جعل المعلومات اللغوية التي ستّمئتخرج من تلك الذخائر 
منطقية ويمكن الاعتماد عليها. ولذلك أشار كينيدي (1998:هءصصعك)!ة'! إلى 
أول مشكلة تواجه مصممي الذخائر اللغوية» ألا وهي إلى أي مدى تَعْتَبر 
البيانات اللغوية التي تحتويها الذخيرة مُعبّرَة حقا عن البناء اللغوي المطلوب 
دراسته. إن هذه المشكلة يمكن النظر إليها من خلال عدة زوايا؛ منها: ههفل 
العينات اللغوية للذخيرة ستكون عينات ثابتة أم متغيرة (استاتيكية أم 
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دناميكية)! وإلى أي مدى يمكن اعتبار حجمها مُمَثُلا لبنية اللغة؟ وما الحجم 
الذي ينبغي أن تكون عليه الذخيرة حتى يمكن أن تفي بالاحتياجات العامة أو 
الوتخسدنة في أغراض البحث اللغوي؟ وكم عدد العينات التي تحتويها 
الذخيرة اللغوية؟ وما حجم كل عينة؟ وفيما يلي نقدم مناقشة تفصيلية لكك ل 
سؤال من تلك الأسئلة التي طرحها كينيد 


أولاً: الاستاتيكية والديناميكية 


الذخيرة اللغوية يمكن جمعها بالاعتماد على نصوص استاتيكية ثابتة» 
والغرض من ذلك محاولة الحصول على عينات لغوية تكون ممثلة للغة في 
فترة زمنية محددة. والذخيرة اللغوية التي يصل حجم مادتها مليون كلمة 
تندرج تحت هذا النوع من الذخائر اللغوية. مثال على ذلك ذخيرة إس إي يو 
51510 التي حاولت اختيار عينات للنموذج البريطائي من اللغة الإنجليزية في 
ظروف استخدام مختلفة على المستويين التحريري والشفهي بصورة ثابتة مما 
يجعل من تلك الذخيرة اللغوية مصدرا مُمدَلا للغة الإنجليزية بصورة عامة. 
وعند تصميم هذا النوع من الذخائر اللغوية دائمًا ما نكون حريصين عند 
التعامل مع بعض القضاياء مثل أسلوب الكتابة ونطاق جمع العينات وغير 
ذلك. وتَعْتير الدراسة :التي أصدرها كويرك (1:1ه©) وآخرون! عام 
6 التي مُمّيّت باسم "موسوعة قواعد اللغة الإنجليزية" +تعمءطء:مم0©) 
(طمتاعم8 01 ““اقصتددة: © ء قد تمت كتابتها بناء على ما قدمته ذخيرة إس 
إي يو ([518:1) من معلومات لغوية؛ وكان كويرك يعتقد أن هذه الذخيرة 
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اللغوية أشبه بمن يلتقط صورة سريعة للإنجليزية البريطانية؛ فهي مثل 
صورة لمنظر طبيعي تم التقاطها بسرعة» بغرض تسجيل الملامح الرئيسة 
لذلك المشهد. وعلى الرغم من أن مصممي تلك الذخيرة استخدموا أسلوب 
العينات كنمط رئيس لبنائهاء فإنهم لم يستطعوا حصر جميع الظواهر اللغوية 
في متنها. وفي الحقيقة فقد جَمَعَت بعض النصوص العامة؛ ولذلك فهي لسم 
تأخذ عن اللغة إلا سلسلة من اللقطات والشرائح اللغوية بشكل استاتيكي. 
والحقيقة أن هذا النوع من الذخائر اللغوية أشبه بمحاولة تجميد مجرى تطور 
اللغة في لحظة بعينها. ولكن نظرا إلى أن مصممي الذخائر دائمًا ما 
يستعينون بعينات لغوية ونماذج نصية محددة العدد في بناء الذخائر اللغوية» 
فمن الممكن أن يتم مقارنة ذلك النوع من الذخائر القائمة على أسلوب البناء 
عن طريق العينات مع نماذج أخرى من الذخائر اللغوية مشابهة من حيتث 
طريقة البناء. ومن الممكن النظر إلى كل من الذخائر اللغوية صغيرة الحجم 
أو الكبيرة على أنها ذخائر لغوية استاتيكية على حدّ سواءء لدرجة أننا 
نستطيع القول: إن ذخيرة بي إن سي الإنجليزية 8116 كبيرة الخهم التي 
يصل عدد كلماتها إلى مائة مليون كلمة من النصوص اللغوية الاستاتيكية. 
الفكرة الأخرى التي تَطرَح عند بناء الذخائر اللغوية هي تلك الفكرة 
القائمة على بناء ذخائر لغوية ديناميكية متغيرة أو ذخائر لغوية لمراقبة 
التغيرات اللغوية (ونام»م» «ه:1ههوم)!7'؛ وهذا النوع من الذخائر أشبه 
بالصور المتحركة ولا تُعْتَبّر لقطة سريعة تؤخذ للغة في لحظة ما. وقد 
أُطلقت تلك التسمية على هذا النوع من الذخائر لأنها نقتم وسيلة فعالة تمكننا 
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من مراقبة نماذج الاستخدام اللغوي مقترنا بحالات التغير التي قد تلحق باللغة 
مع مرور الوقت. وهذا النوع من الذخائر يَعْتمد على تجميع كميات هائلة من 
النصوص اللغوية في أوقات معينة. ثم الاستعانة ببعض البرمجيات للبحث 
عن معلومات إحصائية طبقا. لأهداف وصفية معينة يرغب الباحثون في 
التوصل إليها؛ هذا بالإضافة إلى إمكانية استخلاص بعض النتائج عن تلك 
الظواهر اللغوية التي يتم التوصل إليها واستنتاجهاء على سبيل المقال 
ملاحظة تواتر بعض التراكيب الجديدة وأنماط الكلمات داخل اللغة» أو حدوث 
بعض التغيرات في استخدام الكلمات القديمة» أو في قدرة تلك الكلمات على 
الاقتران مع كلمات أخرى. وهكذا يقدم النمط الديناميكي للذخائر اللغوية 
معلومات متلاحقة عن التغير الذي يطرأ على اللغة في التصوص الحديثة. 
وقد وصف سنكلير (581061215) هذا المفهوم عن الذخائر اللغوية الديناميكية 
قائلاً: 'إننا كما لو كنا سير أغوار التحول اللغوي الذي يحدث مع سريان 
اللغة في مجرى الزمن". إلا أن الذخيرة اللغوية التي يصل عدد مفرداتها إلى 
مائة مليون كلمة تبدو كبيرة جدًا على خطوات معالجة أية ظاهرة لغوية. 
ونظرا إلى أن العناصر التي تتكون منها الذخيرة اللغوية»؛ وطرق الاس تخدام 
اللغوي لتلك العناصر دائمًا ما تتغير بشكل مستمرء فإن هذا يجعلنا غير 
قادرين على إجراء دراسات مقارنة بين الذخائر اللغوية عندما يتغير نوع 
النصوص المحتواة في داخلهاء مثل مقارنة التحول في معدل تكرار الكلمات 
عندما يتغير نوع النص. هذا بالإضافة إلى أن الماد,اللغوية في الذخيرة 
الديناميكية يتم جمعها بصورة عفوية ولا يكون هناك ضمان لتوازن تمثيل 
العينات في كل التخصصات. 
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ففي تلك الأحوال» يحل الاهتمام بكمية المادة اللغوية وحجمها تلقائيا 
محل التصميم الدقيق والتخطيط المحكم لطريقة جمع العينات اللغوية. هذا 
بالإضافة إلى جمع تلك النصوص ومعالجتها وتخزينها على وسائط التخزين 
الصلبة داخل هيكلية الحاسب. الأمر الذي يحتاج إلى تكاليف مادية عالية 
تتمثل في الحاجة إلى خبرات تقنية وبرمجيات معقدة لإجراء عمليات التحليل 
والمعالجة؛ ولذلك فإن فرص ممارسة الأبحاث العلمية القائمة على استقراء 
الذخائر اللغوية وتحليلها نَعدُ قليلة أمام جمهور العلماء المتخصصين منهم 
والعامة. ولا يقدر على مثل هذا النوع من الذخائر اللغوية إلا المؤسسات 
العملاقة والهيئات الحكومية وبعض الجهات المعنية المتخصصة. ويمكن 
لبعض الباحثين المنفردين التعامل مع تلك الذخائر اللغوية نظير مبالغ معينة 
تفع كرسوم حتى يُسسْمح بالتعامل مع المادة اللغوية المدونة بداخلهاء ونجد أن 
غالبية البحوث القائمة على ذخائر لغوية يقوم بها أصحابها بصورة منفردة 
مثلهم مثل معظم القائمين بأبحاث لغوية تقليدية» وقليلا ما يكون هناك تعاون 
بين مجموعات عمل. ولا يتم ذلك إلا عن طريق تبادل الأفكار بين علماء 
اللغة فيما يخص تقنيات الحاسب الآلي وتبادل النصوص. ولذلك إذا أردنا 
للذخيرة الديناميكية أن يقتصر استغلالها على قلة من العلماء فسوف يكون 
ذلك بمثابة إهدار كبير للمال والجهد. 

إن اللجوء إلى استخدام الذخائر اللغوية الديناميكية يُقَدّمَ لعلماء اللغة 
رؤية دقيقة وواقعية عن اللغة (على الأخص في مجال صناعة المعاجم 
وأبحاث علم اللغة التاريخي)؛ وتتمثل تلك الرؤية في رصد مراحل التغير 
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الأغوي ووسائل استخدام الكلمات التي لها معدل استخدام منخفض. ولكن أيَا 
ما كان الأمر فإن هذا النوع من الذخائر اللغوية قادر أيضًا على ضمان 
إمكانية دراسة الكلمات ذات معدل التكرار الأعلى والمتوسط أيضاء فضلا . 
عن البحوث اللغوية المتعلقة بالصوتيات والصرف والنحو. 

وفي الوقت الحالي أدى النمو المضطرد في قدرة الحاسب على تخزين 
كم هائل من البيانات ومعالجتها إلى إتاحة التعامل مع المواد اللغوية فائقة 
الحجم التي تتعدى مائة مليون كلمة. بالإضافة إلى أن هناك حاجة ماسة 
لوجود ذخائر لغوية بمثل هذا الحجم لاستخدامها في التطبيقات المتعلقة بتمييز 
الأصوات وتحويل الأصوات اللغوية إلى مكافئها التحريري وغير ذلك. ولهذا 
نعتقد أن بناء الذخائر اللغوية حاليًا ينبغي أن يقترن بسعي حثيث نحو جمع ما 
يمكن جمعه من المواد اللغوية حتى نتمكن من بناء ذخائر لغوية فائقة.الحجم. 
إلا أن مشكلة إنشاء هذا النوع من الذخائر اللغوية تتمثل في كيفية التوصل 
إلى وسيلة لتنظيم المواد اللغوية وتصنيفها في تلك الذخيرة حتى يمكن إتاحة 
الفرصة لإعادة استدعائها بما يتناسب مع التوجهات المختلفة للبحث اللغوي؛ 
ومساعدة الباحثين على تكوين ذخائر نصية متنوعة من رحم الذخيرة الأم 
لأغراض بحثية معينة. على سبيل المثالء إذا أردنا أن نستطلع قوائم 
المفردات والمصطلحات المستخدمة في مجال ماء يمكننا أن نجتزئ من 


الذخيرة الأم ذخيرة متخصصة تساعدنا على استخراخ تلك المعلومات. 


ثانيًا: المرجعية والتوازن 
الموضوع الآخر المتصل باستاتيكية الذخيرة اللغوية أو ديناميكيتها هو 
الشروط الواجب توافرها في النصوص اللغوية حتى يمكن اعتبارها مناسبة 
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يمكن الاعتماد عليها في البحث اللغوي؛ وفي الحقيقة يُعْتبّر هذا التساؤل من 
الموضوعات الشائكة» حتى الآن لم يتوصل العلماء ران كت حضرل 
المقاييس التي تَعْطي للذخيرة اللغوية مرجعية علمية ومعايير مُحَدّدة لتحقيق 
توازن النصوص في داخلها. 

وقد سبق أن أشار ليتش (1991 :اءهم.) 37!! إلى أن مدى مرجعية 
الذخيرة اللغوية يعود إلى قدرتها على استخلاص معلومات لغوية تمثل اللغة . 
في إطارها العام أو المتخصص حسب توجهات البحث اللغوي. وقديمّاء كانت 
الهيكلية التي بُنيت على أساسها ذخيرة براون (ه8808) أو ذخيرة لوب 
(1:08) تعتمد على مراعاة الدقة في سين ولذلك تم الاتفاق على أن 
المادة اللغوية في هاتين الذخيرتين تمثل مرجعيية للنموذجين ين البريطاني 
والأميركي من اللغة الإنجليزية كل على حدة. 

وفي حقيقة الأمرء توصل العلماء مؤخرا إلى حكم على مقاييس 
المرجعية ومعايير التوازن في الذخائر اللغوية» إلا أن ذلك الحكم لا يتعدى 
كونه حكما تقريبيًا وليس قاطعًا. أما جوهر المشكلة فهو: ما الشيء الذي 
تمثله الذخيرة اللغوية؟ لقد بحث العلماء عشرات السنوات في تحليل الكلام 
والدراسات المتعلقة بعلم اللغة الاجتماعي» وعلى الرغم من أن العينات 
اللغوية لا تكفي للتعبير عن أسلوب أو موضوع لغوي معين؛ فإنه ما زال 
هناك من يعتقد أن الذخيرة اللغوية المكوّنة من كم كبير من النصوص قادرة 
على أداء تلك المهمة. خلاصة القول: إن تلك النماذج اللغوية يمكن استخدامها 
فقط للتعبير عن جوهر. اللغة. على سبيل المثال عندما نتناول. علم الصوتيات 
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في لغة ماء على الرغم من عدم إمكانية تشابه الأصوات بين متحدثي اللغة 
الواحدة» فإننا نستطيع استخلاص النظام الصوتي لتلك اللغة دون أدنى 
صعوبة. وعلى هذا فإن بناء المعاجم الكبرى والوصف النحوي لهيكل لغة ما 
لا يخرج عن هذا المفهوم الذي يقدم وصفا إجماليًا للغة. 

وهناك إشكالية أخرى تظهر عند تصميم الذخائر اللغوية وهي كيفية 
ضمان تحقيق توازن بين الموضوعات المختلفة المكونة لبنية الذخيرة اللغوية؛ 
فقد كانت غالبية الذنخائر اللغوية في المراحل الأولى تنحاز للمستوى 
التحريري من اللغة؛ وتّعْطي السلطة الأعلى لهذا اللشكل اللغوي من 
النصوصء لدرجة أنهم كانوا لا يستخدمون إلا النصوص التحريرية لبناء 
الذخائر اللغوية. والسبب في ذلك يرجع إلى سهولة التعامل مع النصوص 
المكتوبة باستخدام الوسائط الإلكترونية!') لدرجة أنه في الجيل الثاني مسن 
الذخائر اللغوية كبيرة الحجم مثل ذخيرة بي إن سي 8310 التي يصل حجمها 
إلى مائة مليون كلمة لم تتجاوز نسبة المصادر اللغوية الشفهية بها مقدار 
من إجمالي حجم الذخيرة. وعلى العكس من ذلك نجد أن بعسض 
الذخائر اللغوية مثل ذخيرة آي سي إي 1058 تُمَثْل المادة الشفهية بها نسبة 
من إجمالي حجمهاء أما المادة التحريرية فتمثل 904٠‏ فقط. وهذا 
النوع من الذخائر يمثل أقلية من بين إجمالي عدد الذخائر الموجودة حتى 


)0( لا يخفى عن القارئ أن قدرة الحاسب الآلي على التعامل مع المستوى التحريري من 
اللغة قد سبقت المستويات الأخرى؛ لذلك تأخر تدوين اللغة في إطارها المنطوق داخل 
الذخائر اللغوية كثيرا عن المكافئ التحريري لها. (المترجم) 
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الآن. حتى لو تحدثنا عن ذخيرة لغوية تحريرية؛ فمن الصعب الاستهانة 
بالإجابة على التساؤلات التي تتردد عن نوع المادة اللغوية التي ينبغي أن 
تتوفر في تلك الذخيرة. ولا توجد حتى الآن وسيلة مُتَعَارف عليها لتصنيف 
أنواع النصوص المُسَجِّلة داخل الذخائر اللغوية. 

والأكثر من ذلك فإننا لا نعرف حتى الآن ما النسبة التي تضمن لنا 
التوازن بين عينات النصوص في التخصصات المختلفة. لدرجة أن الذخائر 
اللغوية التي تم تصميمها بالفعل ليس من المنتظر اعتبارها ممدلّة عن الإطار 
الكامل للغة» وإنما تعبر عن مجالات ونصوص وموضوعات محددة. وعلى 
الرغم من ذلك فإننا نجدها تعاني من مشكلة التوازن بين النصوص. وفي هذا 
المجال؛ لا يوجد إلا نوع واحد من الذخائر اللغوية لا تثار حوله إشكالية 
التوازن هذه؛ وهو ذلك النوع الذي يتكون من المؤلفات التي شرت في فترة 
زمنية معينة كأن تشتمل الذخيرة على المؤلفات الكاملة لأديب معين أو 
نصوص كاملة لنوع معين من الفنون الأدبية. إن توازن العينات النصية 
داخل الذخائر اللغوية لا يمكن النظر إليه على أنه ذلك الذي يتحقق بمنجرد 
النظر إلى مصدر المادة اللغوية كأن نهتم بتحقيق التوازن بين العينات 
التحريرية والعينات الشفهية؛ لأنه في حقيقة الأمر لا يوجد أحد يستطيع أن 
يعرف على وجه الدقة ما نسبة الكلمات الشفهية إلى الكلمات التحريرية التي 
تتولد في أي يوم من أيام اللغة. ولو نظرنا إلى الأمر من حيث الشكل اللغوي 
لوجدنا أن نسبة ما نستقبله أو ننتجُه يوميًا من الكلمات الشفهية أكبر بكثير من 
الكلمات التحريرية. ولكن النص المكتوب (على سبيل المثال مقال صحفي في 
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جريدة) من الممكن أن يقرأه ما يزيد عن عشرة ملايين قارئ» وعلى العكس 
من ذلك انك أن الحوان الذي شريين شحمن يقتري حذاء ونين البسائم لا 
يمكن أن تتاح الفرصة لشخص آخر أن يستمع إليه» وعلى المنوال نفسه نجد 
أن حوارا في نشرة الأخبار من الممكن أن يصل إلى آذان عدد أكهر من 
الناس مقارنة بذلك الحوار الذي يتم بين البائع ومشتزي الحذاء. 

إن التوازن من الأمور التي يصعب تحقيقها في الذخائر التحريرية 
أيضًا. وقد ذكر سنكلير عام ١15١‏ أن أبسط ما يجب النظر إليه من قواعد 
عند بناء ذخيرة لغوية تحريرية لضمان أقل حد من التوازن هو التمييز بين 
التضومن القصبصية وعين التصتصية :و القعركن كنوع :لقنتي و الجن اد ؟ 
والمجلات؛ والتمييز بين المطبوعات الرسمية وغير: الرسميةء بالإضافة إلى 
مراعاة عُمْر الكاتب وجنسه وجنسيته وغير ذلك. وهناك تساؤل آخر يتمحور 
حول التوازن بين الكُتّاب الذين يمثلون الأقلية وبين القراءء من بين هؤلاء 
الكاتب الذي يتمتع بالسلطة الأعلى» والكاتب الذي تحظى مؤلفاته بأكبر عدد 
من القراء. وقد توصل مصممو الذخائر اللغوية إلى أساليب أكشر تعقيذدا 
وتشابكا في محاولاتهم لتحقيق المرجعية والتوازن للذخائر اللغوية. وهكذا 
تَعْتّبر ذخيرة بي إن سي ©/873 خير نموذج لذلك. 

ناقشت سومرز (5:1991ءددمن5)!”'! بعض الإشكاليات المُّهمّة التي 
ينبغي التفكير فيها لجعل الذخيرة اللغوية تتصف بالمرجعية» وقد تنبهت إلى 
أننا حتى لو أخذنا ذخيرة لغوية تحريرية يصل حجمها إلى مليون كلمة فإن 
تلك الذخيرة ستظل في إطار الذخائر الصغيرة جذا. وذلك إذا قارناهما 
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بمضمون مقالات الجرائد وبالمقالات العلمية» فسوف نجد أن هناك اختلافا 
بينهما من حيث طبيعة المفردات. وطبقا لتلك الملاحظة دعت سومرز إلى 
البدء ببناء الذخيرة باتباع أسلوب موضوعي لاختيار العينات. ثم يَعْقَب ذلك 
تعديل محتوى الذخيرة طبقًا لتحليل يتم عليها بغرض خلق التناسق بين المادة 
اللغوية لتحقيق التوازن فيما بين العينات اللغوية الواردة فيها. وقد ذكرت لنا 
سومرز العديد من الوسائل التي تمكنا من اختيار النصوص التحريرية» منها 
مدى تمتع النصوص بقيمة علمية 'مدى تأثير تلك النصوص" وأسلوب اختيار 
العينات العشوائية» ودرجة انتشار النص وذيوعه؛ أو درجة إقبال القراء 
عليه» ومن ثَمّ نجد أن النصوص الصحفية ستكون أكثر النصوص التي يُقبل 
عليها جمهور القراء؛ ومدى إمكانية الاطلاع على تلك النصوصء ومدى 
توافر معلومات إحصائية عن النصوص الأكثر تداولا بين القراءء وأخيرا 
مدى الخبرة في استخدام اللغة في عمل وصف دقيق لطريقة اختيار 
النصوصء وما إلى ذلك. وبطبيعة الحال» فإن الممارسة العملية لبناء ذخيرة 
لغوية لا بد أن تجمع بين الأساليب السابقة ابقة مثل اللجوء إلى التَعرّف على مدى 
تأثير قوة انتشار نوع معين من النصوص على إمكانية اختيار هذا النوع 
. داخل الذخيرة اللغوية وما إلى ذلك. 

ل اي ا 
النصوص خلالها من العناصر المهمة جدًا. فالمؤلفات التاريخية الشهيرة قد 
تصبح موضع اهتمام قطاع عريض من القراء أو أنها قد تفقد تفقد تأثيرها. ومن ناحية 
أخرى نجد أن الكتب الدينية مثل الكتاب المقدس للملك جيمس (955ل 15108) قد 
تمت ترجمته منذ عدة مئات من السنين ولكنه ما زال مؤثرًا حتى الآن. 
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يلجأ مصممو الذخائر اللغوية في الصين حاليًا إلى عناوين 
الموضوعات والشكل الأدبي للنصوص لتحقيق التوازن داخل بنية الذخائر. 
وقد طرّحت جامعة اللغات والثقافة ببكين مَوْخَرا فكرة لبناء ذخيرة لغوية 
كبيرة الحجم تعتمد على مفهوم درجة تداول النصوصء كمعيار لمرجعية . 
المادة اللغوية وتوازن الموضوعات داخل الذخيرة. 


ثالًا: الحجم 

كيف يمكن الوصول بالذخيرة اللغوية إلى درجة يمكن القول معها: إنها 
متوازنة وتتمتع بمرجعية لغوية؛ بالإضافة إلى إمكانية استخدامها في عمل 
دراسات مقارنة؟ تتوقف إجابة هذا السؤال على جودة المادة اللغوية» إلا أنه 
في بعض الأحيان يتم النظر إلى عدد النصوص المكونة للذخيرة: وهذا الأمر 
لا يتعلق فقط بعدد الكلمات داخل الذخيرة ولكن يتطرق أيضنا إلى مدى تنوع 
النصوص التي تحتويها الذخيرة؛ وعدد الكلمات التي يضمها كل نوع من هذه 
النصوص وما إلى ذلك. وفي الحقيقة أن نطاق المادة اللغوية ومرجعيتها 
يحددان مدى ملاءمة الذخيرة اللغوية للاستخدام» ومدى قدرة الباحثين على 
الاعتماد عليها في البحث العلمي. ولكننا يجب أن نؤكد مرة أخرى أن كر 
حجم الذخيرة اللغوية لا يعني بالضرورة جودتهاء وإنما تتحدد تلك الجودة 
بناء على مدى قدرتها على أن تَمَثل اللغة في إطارها العام. 


٠. حجم المادة اللغوية‎ -١ 
في سبعينيات القرن العشرين كانت الذخائر اللغوية التي يصل حجمها‎ 
إلى مليون كلمة تبدو كبيرة الحجم؛ وكانت الحاسبات العملاقة في ذلك الوقت‎ 
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تستغرق عدة ساعات لعمل فهرسة لكلمات إحدى الذخائر اللغوية. وفي 
الثمانينيات أصبحت فهرسة هذا النوع من الذخائر لا تستغرق أكثر من عشر 
ثوان فقط. وأصبح الجيل الجديد من الذخائر اللغوية مثل ذخيرة كوبيلد 
(لاأسطمع)؛ وذخيرة لونجمان - لانكاستر (1,0281185/12885)©7) تستخدم 
تقنيات المسح الضوئي لتحويل النصوص الورقية إلى مكافئها الرقمي» الأمر 
الذي سَهّل عملية إدخال النصوص إلى ذاكرة الحاسب بأعداد كبيرة. ولهذاء 
فقد صاحب ذلك ازدياد في حجم تلك الذخائر اللغوية» وقد اقترح سنكلير عام 
0 قائلاً:!20! إنه بالإمكان بناء ذخيرة لغوية ذات فائدة وصغيرة الحجم 
تتراوح بين عشرة أو عشرين مليون كلمة. ولكننا إذا أردنا أن نقتم وصفا 
للنظام اللغوي بأكمله يُعْتَمَد عليه» فإن هذا الحجم يظل صغيرًا إلى حد ماء 
لدرجة أن هناك من يعتقد أن الحدود المُقَيّدة لكبر حجم النصوص يكاد يكون 
النقيصة الملازمة لبنية الذخائر اللغوية. على سبيل المثال نجد أن سنكلير قد 
سبق له أن أشار في عام ١13١‏ قائلاً: إننا حتى لو نجحنا في بناء ذخيرة 
لغوية من مليار كلمة فسوف تظل أمامنا معلومات لا تظهر في قوائم 
المفردات عن الحالات النادرة لأنواع الكلمات. وفي الحقيقة أن هذا الرأي هو 
ما يشير إليه قانون زييف (197 72101"5) القائل: إننا لو رمزنا بالرمز إلى 
عدد مرات تكرار الكلمات من الأكبر فالأقل في الجدول التكراري للكلمات؛ 
وأخذنا ترتيب كل كلمة في ذلك الجدول من الأقل فالأعلى ورمزناله 
بالرمز"”" (1ه82) وكانت: 

دم 
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فسوف نجد أن هناك تتاسبًا عكسيًا بين" و" بمعنى أن: 


+ # م دعا 


-/ 12 
حيث نشير "2 إلى قيمة ثابتة 

ولا يصعب علينا ملاحظة أن هناك دالة يمكن تمثيلها بخطين بيانيين 
أخزهدا يمال كلد مرك تعر ار الكلمات /"؛ والآخر يمثل ترتيب الكلمات "2 
في الجدول التكراري. وقد أثبتت الدراسات التي تمت على العديد من الذخائر 
اللغوية صحة قانون زييف: فهناك عدد قليل من الكلمات التي تتمتع بنسبة 
تكرار عالية قد عَطْت إجمالي عدد مرات التكرار لمعظم الكلمات المكونة 
للذخيرة اللغوية» ولوحظ أيضًا أن أكثر من نصف عدد الكلمات في تلك 
النخيرة اللغوية لم يظهر إلا مرة واحدة. وأثبتت دراسة أخرى أُجْرِيّت في 
السنوات الأخيرة أن قانون زييف لا يصلح فقط للاستخدام في دراسة توزيع 
الكلمات داخل للغة» وإنما يُستخدم أيضًا في دراسة توزيع القواعد النحوية 
في الاستخدام اللغوي. فمن ناحية» وجدنا أن عدذا قليلاً من القواعد النحوية 
قد غطى إجمالي عدد مرات تكرار معظم الظواهر النحوية الأخرى» ومن 
ناحية أخرى وجدنا أن هناك العديد من القواعد لم يظهر إلا مرة واحدة داخل 
الذخيرة اللغوية. والطريف أننا اكتشفنا أن القواعد النحوية كانت تتزايد بزيادة 
حجم الذخيرة اللغوية. وقد متت تلك النتيجة الإحصائية تحديًا كبيرًا أمام 
إحدى الفرضيات الشهيرة التي طرحها تشومسكي التي تقول: إن قواعد اللغة 

محدودة في حين أن عدد الجمل داخل اللغة لا نهائي. 
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ما عدد العلامات التي نحتاجها إذا أردنا أن نقدم وصفا كاملا لإاحدى 
اللغات؟ تشير الإحصاءات إلى أن نسبة 4٠‏ - 9960 تقريبًا من إجمالي عدد 
الكلمات المكونة لذخيرة لغوية يصل حجمها إلى مليون كلمة لا يتكرر غير 
مرة واحدة. وقد انتبه كلا من رندل وستوك (عل540 0ه امصس) 211! عام 
5 في حديثهما عن علم المعاجم القائم على الذخائر اللغوية أن كلمة 
لمع" ا ا ا ال ا نه 
لونجمان/لانكستر (1:085185/1:2085]65) فإن عدد مرات تكرار تلك 
الكلمة في تر كيب مثل: "8«اءادء» 0605" بمعنى "انتشار الأخبار” كان قليلاً 
إلى الحد الذي لا يمكن معه إعطاء معلومة لمؤلفي المعاجم أن هاتين الكلمتين . 
تؤلّفان معًا مصطلحًا ينبغي أن يَرِد في المعجم. ولكن إذا اعتبرنا أن ظهور 
الكلمة أو التركيب مرة واحدة غير كافء إذن فكم عدد مرات التكرار التي 
يمكن أن تُحَدّد إمكانية النظر بعين الاعتبار إلى مصطلح أو معنى كلمة إذا 
تكررت داخل الذخيرة اللغوية؟ على سبيل المشال أَُجْرِيّت دراسة على 
ذخيرتي لوب (5م.آ) وبراون (8:052) فلوحظ أن 964٠‏ من مرات تكرار 
كلمة "عءهفاعددده»ة©" جاء بصيغة الجمع "وع20 هاكتدده15)" ومن ناحية 
أخرى لوحظ أن كلمة من الكلمات التي تتمتع بمعدل تكرار عال في 
الإنجليزية ككلمة "؛ه' قد ظهرت 5000 مرة مقترنة بكلمات أخرى» وهذا 
الرقم كبير جدًا. وبالنسبة إلى علم المعاجم أو أبحاث المفردات والقواعد فإنه 
كلما تضخمت المعلومات المستخرجة آليّا من الذخيرة اللغوية زادت الحاجة 
إلى معالجتها يدويّاء وهذا ما يصعب التعامل معه؛ فالكلمة إذا تجاوز عدد 
مرات اقترانها مع كلمات أخرى ٠‏ مرةء سيمثل ذلك أكبر تحدٌّ يواجه 
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صناع المعاجم فيما يتعلق بإشكالية تحليل البيانات. ومن هناء نجد أن علماء 
اللغة ومؤلفي المعاجم يطالبون بضرورة وجود نوع من البرمجيات والتقنيات 
الفعالة تساعدهم في أداء أعمالهم من أجل استخلاص أفضل النماذج اللغوية 
من بين كم كبير من المادة اللغوية. إن هذا ما يحدث عند تحليل المفردات 
ذات معدل التكرار الأعلى داخل الذخيرة اللغوية. وبناءً على ذلكء يمكننا 
القول: إن كبر حجم الذخيرة اللغوية يتسبب في ظهور بعض الآثار الجانبية 
عند التحليل اللغوي. وعادة ما نجد أن تلك الإشكاليات يتم التغلب عليها 
مباشرة على الحاسب الآلي في أثناء انتقاء العينات. ولكن بالنسبة إلى 
التراكيب التي تظهر مرة واحدة داخل الذخيرة اللغوية يكون هناك حاجة لأن 
تُصنف داخل قائمة فرعية؛ ثم نقوم بالبحث عن الأمثلة التي ترد فيها تلك 
التراكيب في ذخائر لغوية أكبر حجما. 

وقد أظهرت الدراسات أن ذخيرة يصل حجمها إلئ مليون كلمة مشل 
ذخيرة لوب (1.045آ) أو ويلنجتون (هم0)عهفلاء17) تحتويان تقريبًا نحو ماقفة 
كلمة ورد ذكرها أكثر من ألف مرة. بالإضافة إلى أن هذه القائمة نفسها من 
الكلمات عندما عرضت على ذخيرة بي إن سي (8210) البالغ حجمها مائة 
مليون كلمة؛ وجد أن معدل التكرار قد تضاعف بصورة كبيرة ليصل إلى 
٠‏ مرةء وأن هذا العدد (ال١٠٠‏ كلمة) قد غطى ما يقرب من 9010 
من إجمالي عدد مرات تكرار الكلمات. أما ال 995 الباقية من عدد مرات 
التكرار (التي يصل عددها خمسة ملايين مرة) فقد اقتصرت على حوالي 
خمسمائة ألف كلمة فقط. 
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ولذلك إذا أردنا أن ندرس الظواهر الصرفية داخل لغة ماء وعلى 
الأخص إذا كان هدفنا وضع توصيف دقيق للكلمات ذات معدل التكرار 
المنخفض وأساليب اقترانها مع الكلمات الأخرى ستكون حاجتنا أكبر إلى 
الذخائر اللغوية كبيرة الحجم. ولكن إذا تعذر التعامل مع البيانات الكبيرة فلن 
يكون من المفيد في ذلك الوقت الاستعانة بمثل هذا النوع من الذخائر. حتى 
إذا استطعنا بناء ذخيرة لغوية كبيرة وجمعنا في داخلها مثل حجم المحيط من 
المواد اللغوية» فإذا لم يكن تصميم هذه الذخيرة اللغوية متميزاء لن نتمكن من 
تقديم وصف لغوي من خلالها. بناءً على هذا المفهوم يمكننا القول: إن 
الذخيرة اللغوية كبيرة الحجم ليس بالضرورة أن تكون أكثر -تمثيلاً للّغَة ما- 
دونا عن الذخيرة الأقل حجمًا. وفي المرحلة الراهنة لا يمكننا أن نقطع بمدى 
ما يجب أن يكون عليه حجم الذخيرة اللغوية العامة أو المتخصصة. ول ذلك 
يرى الكاتب ومعه محللو الذخائر اللغوية أنه من الأفضل الاهتمام بجودة 
المادة اللغوية بدلاً من الإفراط في الاهتمام بحجم الذخيرة اللغوية ونطاقها. 

ويشير المرجع رقم ؟!! في قائمة المراجع إلى أننا لو أردنا دراسة 
عروض اللغة الإنجليزية على سبيل المثال» فإن ذخيرة لغوية تصل إلى مائة 
ألف كلمة تكفي لهذا الغرض. وإذا أردنا أن نَجّري تحليلاً يمكن الاعتماد عليه . 
عن استخدامات الفعل في اللغة الإنجليزية فسوف يمكننا تنفيذ هذه المَهَََّة 
اعتمادًا على ذخيرة لغوية يصل حجمها إلى خمسمائة ألف كلمة؛ وأن دراسة 
التراكيب النحوية والكلمات ذات معدل التكرار الأعلى تحتاج غالبًا إلى ذخيرة 
تتراوح ما بين خمسمائة ألف ومليون كلمة. كما يمكننا أن نُجْرِي مقارنة بين 
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نتائج تحليل المادة اللغوية في ذخيرة كبيرة الحجم مثل دخيرة بي إن سي 
(8310) وبين نتائج التحليل في ذخائر صغيرة مثل لوب (1,08): وآي سي 
إي (108) لكي نتوصل إلى حل الإشكاليات المتعلقة بحجم الذخيرة اللغوية 

ومدى مرجعيتها. وبهذه الظريقة يمكننا التوصل إلى معرفة حهم الذخيرة 
. اللغوية الذي يناسب كل غرض من الأغراض البحثية. وبصورة عامة يمكننا 
القول: إنه مهما كان حجم المادة اللغوية فغالبًا ما تزداد نسبة الاعتماد على 
نتائج التحليل اللغوية لتلك المادة والاعتراف بها كلما ازداد عدد العينات 
اللغوية التي تغطي قطاعًا عريضا من التخصصات داخل اللغة. 


5 عدد العينات 

القضية الأخرى المتعلقة بحجم الذخيرة اللغوية ‏ هي عدد العينات 
المأخوذة داخل الذخيرة. ففي الجيل الأول من الذخائر اللغوية مثل ذخيرة 
لوب (1.08) وذخيرة براون (8807811) وصلت العينات المٌّمَثّلّة داخل 
هاتين الذخيرتين إلى 0٠٠‏ عينة؛ وكان حجم النصوص في كل عينة لا يقل 
عن ٠٠٠١‏ كلمة. من بينها عدد من العينات كانت تَمَثْل نصًا كاملاء أما 
غالبية العينات فكانت عبارة عن جزء من نص. ونظرا إلى أن النصوص 
التي تَقَتَطّف من مقدمة الكتب وخاتمتها تد تتميز أنها تعبر تعبيرا دقيقا عن 
الخصائص اللغوية المختلفة» لذلك فإن الذخائر اللغوية التي تبنى بأسلوب 
العينات النصية لا يمكن أن تَُعَبّر عن الإطار العام للغة إلا إذا كانت تلك 
العينات تشمل جميع أنواع النصوص اللغوية» وإذا لم يراغ ذلك في اختيار 
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العينات فسوف تَضْيُرٌ الذخيرة بالملامح العامة للغة. وعلى العكس من ذلك إذا 
تم بناء الذخيرة على أساس النصوص الكاملة فسوف يؤدي ذلك إلى نقص 
عدد العينات وقلة أنواع النصوص المُمَثَة داخل الذخيرة. ومن ثم يؤثر ذلك 
في قدرة الذخيرة على أن تكون مُمَثلّة للغة. ولا يمكن التغلب على تلك 
المشكلة إلا بكبر حجم الذخيرة اللغوية. 

وقد قام بيبر (21)8105:1993*! بعمل دراسة عن توزيع عشر 
خصائص لغوية داخل ذخيرتي لوب (1.08) وإل إل سي (©:1,1) وذلك من 
خلال 55 زوج من العينات اللغوية» وقد اختار هذه العينات من مساحة 
عريضة من النصوص الشفهية والتحريرية. حيث كان يختار كل زوج من 
العينات في إطار ألفي كلمة من النصوص مُوَنَّعَة بالتساوي على الذخيرتين 
وفي تخصص واحدء ثم يدرس الاختلافات اللغوية بين الاثنين من خلال تلك 
العينات. وكانت النتيجة التي توصل إليها هي أنه يكفي وجود مابين 
37 كلمة حتى. يمكن أن تكون العينة مُعيّرَةَ عن الخصائص 
اللغوية لنص ما. بالإضافة إلى أنه يَعتقد أن عدد 8٠١ - 7٠١‏ عينة لغوية 
مختلفة تكفي لدراسة الاختلافات اللغوية الشائعة. 
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الفصل الثاني 
بناء ذخبرة لغوية 
يشير المرجع رقم !*2! في قائمة المراجع إلى أن وضع تعريف للذخيرة 
اللغوية» وتحديد إجمالي حجم النصوص المختارة وأنواعهاء ونسبة تمثيل كل 
نوع من أنواع النصوص داخل الذخيرة من أصعب الأعمال التي تواجه عالم 
اللغة في أثناء بناء الذخيرة اللغوية. ويرى بعضهم أن هذا العمل ينبغي أن 
يُوكل إلى العلماء المتخصصين في علم اللغة الاجتماعي للقيام به. أما علماء 
اللغة فينبغي أن تقتصر بحوثهم على إجراء تحليل للأمثلة اللغوية التي 
تحتويها الذخيرة اللغوية وتوصيفها. ولكن واقع الأمر حاليًا يُشير إلى أن 
علماء اللغة وخبراء الحاسب هم الذين يقومون بأعمال التصميم الخاصة 
بتوزيع العينات داخل الذخيرة اللغوية» ومما لا شك فيه أن هذا العمل لا يخلو 
من صعوبة بالغة. 
إن أول شيء يتم التفكير فيه عند بناء ذخيرة لغوية هو الغرض الذي 
تبنى من أجله تلك الذخيرة؛ وهل هي ذخيرة للأغراض العامة أم الخاصة. 
نُقَدّم ذخائر الأغراض العامة كمية كبيرة من الأمثلة اللغوية للبحث اللغوي في 
جميع المجالات» أما ذخائر الأغراض الخاصة فتَسْتخدم في إنتاج التطبيقات 
القائمة على معاتكة اللعات: الكل يميف و مسف رادها تسل مجان لخورًا معدداة 
ولذلك ينظر البعض إلى هذا النوع من الذخائر اللغوية على أنه إحدى مراحل 
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ابتكار تلك التطبيقات وتطويرها. ويتمحور الغرض من هذا الباب حول 
التعريف بالذخائر اللغوية التي تَصَمّم لأغراض الاستخدام العام. 
أولا: مصادر المادة اللغوية 

تحدم في ذلك وسائل إدخال البيانات المتاحة بالفعل» التي تتعدد 
أشكالها في جمع المواد اللغوية إما عن طريق تحويل النصوص الورقية إلى 
نسخة رقمية أو عن طريق الاستعانة بالنصوص الرقمية الموجوده بالفعل. 
-١‏ تحويل النصوص الورقية إلى نسّخ رقمية 

هناك طريقتان للمساعدة في تحويل النصوص الورقية إلى نسخ 
رقمية()ء أولاهما: 

أ) طريقة المسح الضوئي 

زادت في الآونة الأخيرة تقنيات التمييز الضوئي للحروف المطبعية 
بصورة تدريجية؛ ولذلك فإن كميات كبيرة من النصوص المكتوبة بالحروف 
المطبعية يمكن أن تعتمد على تلك التقنيات حتى يمكن تحويلها إلى نسخ 
رقمية. وتجنبنا هذه الطريقة اللجوء إلى لوحة المفاتيح لإعادة كتابة محتويات 


)0( الجدير بالذكر أن علماء اللغويات الحاسوبية العرب لم ينجحوا حتى الآن في حل تلك المشكلة بالنتسسبة 
إلى اللغة العربية» وجميع المحاولات المطروحة في هذا المجال لا ترقى لمستوى الاس تخدام؛ يسبب 
القصور الملحوظ في دراسات المعالجة الآلية لمنظومة الكتابة باللغة العربية. وعلى الجانب الآخر نجد 
أن مشكلات تحويل الكتابة الصينية بشقيها المطبوع واليدوي إلى مكافئ إلكتروني قد تم حلها بشكل 
كامل من قبل العلماء الصينيين بأنفسهم مع بدايات. القرن الحادي والعشرين؛ على الرغم من الصعوبات 
الهائلة التي اعترضتهم بسبب طبيعة اللغة الصينية التي تعتمد على الرموزء الأمر الذي أل اللغفة 
الصينية للدخول إلى مستويات عصر المعلوماتية بكفاءة غير مسبوقة. (المترجم) 
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الكتب المراد تسجيل محتوياتها في الذخيرة اللغوية. على سبيل المثال يُبباع 
في الأسواق الصينية حاليًا برمجية تَتبِع تلك التقنية في إدخال النصوص 
المكتوبة بالحروف المطبعية إلى الحاسب وتحويلها إلى نسخة رقمية. وقد تم 
تطوير هذه البرمجية بمعرفة قسم علوم الحاسب وتقنياته بجامعة تشين خوا 
الصينيةاة*ا. ولكن ينبغي الانتباه إلى أن استخدام هذا الأسلوب في تمييز 
النصوص المطبوعة لا يخلو من بعض الأخطاءء ويحتاج الأمر إلى إجراء 
تصويبات يدوية لتصحيح تلك الأخطاء التي تقع من البرمجية في أثناء عملية 
.تمييز النتصوص وإدخالها إلى وسائط التخزين الإلكترونية داخل الحاسب. 

ب) إدخال النصوص إلى الحاسب يدويًا عن طريق لوحة المفاتيح 

يتم اللجوء إلى استخدام هذا الأسلوب مع أنواع النصوص التي لا يمكن 
استخدام أسلوب التمييز الضوئي لها. وهذا النوع من النصوص يشمل 
نصوص الفاكسساتء والمذكرات. الشخصية:ء والتسجيلات الصوتية وغير ذلك. 
ففي بعض الأحيان يكؤن استخدام أسلوب التمييز الضوئي للنصوص غير 
فعال بالدرجة الكافية؛ حيث يحتاج إلى وقت كبير لإجراء تصويبات يدوية 
على النسخة التي تم تمييزهاء لدرجة أن يكون من الأفضل الاعتماد على 
تكح .دي كقا<#اعاليةفن كثية التمترض يدوك على لابج لككويل هذا 
النوع من النصوص إلى نسخ رقمية. في البدايات الأولى لإنشاء الذخائر 
اللغوية باللغة الصينية» كان المتخصصون يلجئون إلى مثل هذا الأسلوب في 
العمل؛ ففي بداية ثمانينيات القرن العشرين؛ قام قسم علوم الحاسب بجامعة 
شان شي بتكليف من اللجنة القومية للغة الصينية بعمل دراسة إحصائية عن 
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معدل تكرار الرموز داخل اللغة الصينية عن طريق بناء ذخيرة لغوية 
باستخدام هذا الأسلوب!25)؛ حيث تم تكليف بعض الأشخاص المهرة بكتابة 
محتويات جريدة الشعب.اليومية خلال شهر وتحويلها إلى نسخة إلكترونية؛ 
وبعد ذلك تم استخدام الحاسب في إنهاء الأعمال الخاصة بإحصاء معدل 
تكرار الرموز داخل تلك الذخيرة. 
"١‏ استخدام النصوص الرقمية الموجودة بالفعل 

أصبح من الشائع الآن توافر نسخ إلكترونية من الجرائد والمجلات 
والكتب وغير ذلك من المواد المطبوعة» ويُعتبّر اللجوء إلى مثل هذه 
النصوص الوسيلة المباشرة لبناء الذخائر اللغوية» وفي تلك الحالة ينحصصر 
عمل مصممي الذخائر على القيام بالتهيئة اللازمة لهذه النصوص؛ حيث 
يقومون بتحويلها إلى النمط الرقمي المناسب لبنية النتصوص داخل الذخيرة 
اللغوية بما يُمَكن من التعامل معها فيما بعد. 

وفى الحقيقة أن عددًا كبيرًا من مشروعات بناء الذخائر اللغوية يتم من 
خلال الجمع بين الأساليب السابقة في إدخال النصوص إلى ذاكرة الحاسب 
وتحويلها إلى نسخة رقمية؛ ع ب 
أنو اع النصوص المتاحة» التي تَعْتبّر المادة الخام لبناء الذخيرة اللغوية. فعلى 
سبيل المثال» نجد أن النصوص مره بق الننة ولتنتضوسن المسكلة 
صوتيًا يناسبها استخدام لوحة المفاتيح لتحويلها إلى نصوص إلكترونية. وعلى 
العكس من ذلك؛ نجد أن العديد من نسخ الجرائد والمجلات أصبحت تتوافر 
في شكل إلكترونيء أما الكتب المطبوعة بالأسلوب التقليدي فيْفضّل استخدام 
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برنامج مسح ضوئي ذي كفاءة عالية كوسيلة سريعة وفعالة لتحويل نصوص 
تلك الكتب إلى المكافئ الزقمي لها. 
ثانيًا: تصميم الذخيرة اللغوية 

مرحلة تصميم الذخيرة اللغوية تشمل تحديد حجمهاء ونطاق النتصوص 
الكلي للذخيرة: وبنية التصنيفات التي تندرج تحتها تلك النصوص» التي تمَكن 
من البحث داخل الذخيرة» وغير ذلك من الموضوعات التي تمس عملية جمع 
النتصوص. ويقدم المرجع رقه!**! من قائمة المراجع وصفا دقيقا لما يتعلق 
بتصميم الذخائر اللغوية» وسوف نقدم فيما يلي شرحا مبسطا لبعض 
-١‏ توزيع المادة اللغوية داخل الذخيرة 

من ناحية الجوهرء تُعْتَبْر الذخيرة اللغوية كيانا يضم في داخله جميع 
أنواع النصوص. ولذلك فإن مسألة اختيار أنواع النصوص التي يتم التعامل 
معها من العناصر التي لها أكبر الأثر في كفاءة الذخيرة اللغوية. وسوف 
نتحدث فيما يلي عن بعض النقاط التي ينبغي أن يكون لها الأولوية في 
التفكير عند بناء الذخائر اللغوية: 

أ) المستويان الشفهي والتحريري للغة 

عند بناء الذخيرة اللغوية ينبغي أن نُحَدّد سابقًا ما إذا كانت ذخيرة 
للنصوص التحريرية أم للنصوص الشفهية» أم أنها تجمع بين النوعين. 


89 


والجدير بالذكر أن هناك العديد من الذخائر اللغوية لا تضم في داخلها إلا 
نماذج لنصوص تحريرية. وهذا من شأنه أن يتسبب في كون الذخيرة غير 
معبرة عن اللغة ولا تعكس الواقع العملي للاستخدام اللغوي؛ حيث يعتقد 
العديد من علماء اللغة أن اللغة الشفهية أكثر قدرة على التوجيه والإرشاد في 
عمل الدراسات الأساسية عن التكوين اللغويء وأنه لا يوجد أي شكل من 
النصوص التحريرية يمكن أن يلعب هذا الدور بصورة كاملة. 

إلا أن عمليات جمع النصوص الشفهية أصعب بكثير من جمنع 
النصوص التحريرية. وعلى الرغم من عدم صعوبة جمع بعض أشكال اللغة 
الشفهية مثل سيناريوهات السينما ونصوص المسرح وسجلات المؤتمرات 
ومرافعات القضايا داخل كوم والنشرات التليفزيونية» فإن اللغة التي تمثلها 
هذه الأنماط اللغوية قد تََتَ عليها بعض التعديلات؛ ومن المؤكد أننا سوف 
نعثر في متنها. على بعض آثار المعالجة الاصطناعية؛ ولذلك لا يمكن لهذه 
التصومن أن تَعبّر عن الروح اللغوية التي يتسم بها الحوار الطبيعي. وغالبًا 
ما نطلق على هذا النوع من اللغة الشفهية مصطلح اللغة الشفهية القياسية. 

عند بناء الذخائر اللغوية الصينية تكون النسبة الأكبر هي النصوص 
التحريرية؛ مثل الجرائد والكتب وغير ذلك. وتقل نسبة المكوّن الشفهي داخل 
الذخائر الصينية وبخاصة ذلك الجزء المعبر عن الفوارق الطبيعية بين الأشخاص. 

ب) المستوى الرسمي والمستوى الأدبي من اللغة 

المادة اللغوية يمكن اختيارها من بين العديد من الأشكال اللغوية» فقد 
تكون تلك المادة في شكل رسمي أو غير رسميء أو قد تكون لغة أدبية أو 
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لغة عادية. فاللغة الرسمية يَسْهْل الحصول عليها مقارنة باللغة غير الرسمية. 
أما اللغة الأدبية فِيسْهُل رصدها مقارنة باللغة العادية؛ أما الرسائل الكتابية 
واليوميات القصيرة غير الرسمية التي يَعْقلُها الناس فتَعْتَبَر الوجه الحقيقي 
الذي يُمَتل الاستخدام اللغوي في إطاره الأشمل. وبالمثل فلا توجد حاجة لأن 
تحتوي الذخيرة اللغوية جميع الأعمال الأدبية المعاصرة؛ حيث إن نسبة قليلة 
'منها تفي بالغرض. 

ج) مدى مرجعية اللغة 

الوظيفة الأساسية للذخيرة اللغوية هي إعطاء الإمكانية للإبحار داخل 
اللغة لاكتشاف جوهرها والعناصر القياسية المعبرة عنها. فلو كانت غالبية 
النصوص في الذخيرة تم اختيارها من أعمال أديب واحدء فمن المؤكد أن تلك 
الذخيرة سوف تتمحور بصورة كبيرة حول التعبير عن الخصائص الإبداعية 
لأسلوب هذا الكاتب» وبذلك تفقد قيمتها في إجراء البحوث اللغوية المعبرة 
عن الخصائص العامة للغة. 

وعلى المنوال نفسه نجد أن كل كاتب من كناب الجرائد والمجلات له 
أسلوب مختلف في الكتابة» ومن هنا فإن جمع أكبر قدر من النصوص على 
مستوى جميع التخصصات من الأمور المفيدة جدًا للبحث اللغوي. وإذا أردنا 
أن نجعل الذخيرة اللغوية أكثر قربًا من واقع اللغة فينبغي لنا أن نضم في 
داخلها أكبر قدر من أعمال الكُتّاب في مختلف التخصصات والمجالات. 

د) الفترة الزمنية للنصوص 

غالبية الذخائر اللغوية تسعى إلى تغطية فترة زمنية محددة» وبما يجعل 
المادة اللغوية السُنَجّلَةَ داخل الذخيرة اللغوية نَعَبّر عن الواقع اللغوي للغة في 
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تلك الفترة الزمنية. وهذا النوع من الذخائر اللغوية يطلق عليه اسم الذخائر 
اللغوية المُمثَّلَة لزمن محدد. وعلى العكس من ذلك؛ هناك نوع آخر من 
الذخائر اللغوية التاريخية تنشأ بغرض عمل سلسلة من الأبحاث عن التغيرات 
التي تطرأ على اللغة من ناحية المفردات والبناء الهيكلي لها بصورة 
تاريخية؛ وذلك عن طريق جمع عدد من الأعمال في فترات تاريخية مختلفة. 


"- نطاق المادة اللغوية 


عند تحديد نطاق المادة اللغوية يكون هناك حاجة إلى التفكير في 
العناصر التالية: 

أ) حجم الذخيرة اللغوية 

هذه النقطة من أهم القضايا التي يهتم بها مصممو الذخائر اللغوية في 
بداية العمل في إنشاء أي ذخيرة. ففي الفترة الأولى من تاريخ البحوث 
المتعلقة بالذخائر اللغوية لم تكن هناك وسيلة لبناء النخائر اللغوية إلا عن 
طريق التسجيل اليدوي للمادة اللغوية؛ حيث كان من الصعب وجود مكافئ 
رقمي للنصوص اللغوية. ولذلك كان حجم الذخائر آنذاك صغيرًا إلى حة 
بعيد. وتحت تأثير تلك الظروفء كان من الواجب توخي الدقة عند تصميم 
مخطط توزيع المادة اللغوية حتى تكون الذخيرة اللغوية معبرة عن اللغة 
بصورة شاملة. وإذا نظرنا إلى الأمر نظرة بعيدة المدى يمكننا التتبؤ بأن 
الذخائر اللغوية سوف يتأثر حجمها تبعًا لتطور تقنيات الحاسب. وهذا ما 
يخبرنا به قانون زييف من أن نسبة توزيع الكلمات المتكررة داخل الذخيرة 
اللغوية غالبا ما تتناقص بصورة كبيرة تبعًا لتناقص عدد مرات تكرار تلك 


الكلمات داخل النصوصء على سبيل المثال؛ تلك الدراسة التى تمت على 
اللغة الإنجليزية التي تشير إلى أن كلمة "456" التي سنجل أعلى عدد لمرات 
التكرار داخل اللغة الإنجليزية؛ جاء عدد مرات تكرارها ضعف عدد مرات 
تكرار كلمتي 06'": و"880" اللتين تأتيان في المرتبة الثانية من حيث التكرار» 
وبعد ذلك يتناقص عدد مرات تكرار الكلمات بصورة سريعة إلى أن نصل 
إلى كلمة '56: التي تحتل المركز التاسع عشر من حيث الكلمات الأكثر 
تكرارًا في اللغة الإنجليزية» فنجد أن نسبة تكرار هذه الكلمة يمثل 90٠١‏ فقط 
من نسبة تكرار كلمة '686» أما الكلمة التي تحتل المركز 84 وهي كلمة 
"6860" فتشغل 9,005 فقط من نسبة تكرار كلمة "©8)". 

ولك" إن أرما أن تكن بفيوية الذهاتن اللعوية فو خيل از ا 
لمفردات لغة ماء وأردنا أن تغطي دراستنا أكبر قدر من مفردات تلك اللغة 
فعلينا توضيع من حجم الأكيرة قد استطاعكا: 

ب) حجم العينات اللغوية 

وأخيراء ما الحجم الذي ينبغي أن تكون عليه كل عينة لغوية؟ هذا هو 
السؤال الذي يتكرر دائمًا عند مصممي الذخائر اللغوية» ولكل منهم رأيه 
الخاصء على سبيل المثال»: نجد أن ذخيرة لوب 1.08 لا تقل كل عينة فيها 
عن ٠٠٠١‏ كلمة» وعلى الرغم من أن هذه الطريقة قَلَدَها العديد من العاملين 
في بناء الذخائر اللغوية» فإن هناك عددًا من العلماء وجهوا نقذا لهذه 
الطريقة؛ حيث يعتقدون أن النصوص بهذا الحجم لا تكفي للتعبيير عن 
الخصائص اللغوية للنص الأصلي. على سبيل المثال رسائل الأخبار القصيرة 
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(مثل الجمل الإخبارية) نجد أن أسلوبها يختلف عن أسلوب كتابة التقارير 
الإخبارية؛ ولكن نظر! إلى أن حجم النصوص التي تمثل رسائل قصيرة لا 
يكفي لأن يكون في حدود ٠٠٠١‏ كلمة» فلا يمكن أن تضم الذخيرة اللغوية 
هذا النؤع من النصوص؛ ومن ثَمّ لا يُتاح للذخيرة اللغوية أن تغطي مثل هذا 
النوع من النصوص الذي يقدم لنا الخصائص اللغوية للرسائل الإخبارية 
القصيرة. 

وعلى الجانب الآخر نجد أن اختيار عينة في حدود ٠٠١‏ كلمة 
للتعبير عن الخصائص اللغوية لرواية طويلة لا يمكن أن تفي بهذا الغرض؛ 
ولذلك فمن أجل أن نعوض ذلك النقص ونتلافى هذا العيب علينا اختيار 
النص بأكمله لكي يدخل في متن الذخيرة اللغوية حتى يمكن تجنب انحصار 
العينات في بعض فقرات النص الأصلي. 

ولذلك» فعند إتاحة الظروف يكون من الأفضل اختيار النصوص 
بأكملها. وهذه الطريقة لا يُخشى معها الوقوع في مشكلة التفاوت بين أساليب 
الأجزاء المختلفة للنص. ' 

إن اختيار النصوص بأكملها أفضل من الاكتفاء باختيار عينات منها؛ 
لأن النص الكامل من شأنه أن يُقدّم معلومات شاملة تساعد على البحث 
اللغوي» ومع هذه الطريقة لا يكون داع هناك للقلق من عدم الالتزام بالخطّة 
المتَبَّعَة في بناء الذخيرة اللغوية. وأهم ما في الأمر هو ضمان تصميم برنامج 
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جيد لإدارة البيانات داخل الذخيرة اللغوية بما يتيح الفرصة أمام علماء اللغة 
للحصول على ما يبغون التوصل إليه عند الحاجة. 


'"'- تصميم برنامج التخزين وسجلات الحفظ 


إن الهدف من إنشاء ذخيرة لغوية هو استغلال الحقائق اللغوية 
واستخدامها في إجراء البحث اللغوي. ولذلك يُعْتَبّر الالتزام بمعايير الدقة في 
تصميم وسيلة تخزين المادة اللغوية وإشارات ترميزها من الأعمال المهممة 
جدًا خلال عملية إنشاء الذخائر اللغوية. فلو أخذنا اللغة الإنجليزية مثالأ» نجد 
أن تخزين ذخيرة لغوية سعتها مليون كلمة تحتاج إلى مساحة تخزين تتراوح 
بين 4 و١٠‏ ميجا بايت. وإذا أضفنا علامات الترميز النحوية لمحتويات هذه 
الذخيرة سنحتاج من " إلى © ميجا بايت إضافية» أما إذا أضفنا رموز 
التحليل النحوي فسوف نحتاج إلى 7١‏ ميجا بايت أخرى. إن عملية تغزين 
المادة اللغوية في متن الذخائر اللغوية لم تَعْد مشكلة؛ نظر! إلى تطور تقنيات 
الحاسب الآلي» فعلى سبيل المثال يمكننا تخزين معلومات تصل إلى مائة 
ميجا بايت على أسطوانة ليزر واحدة. إن الذخيرة اللغوية لا تكتسب قيمتها 
إلا من المادة اللغوية المُخْزّنة والمعلومات المتعلقة بها. ولذلك فعند بناء 
ذخيرة لغوية علينا أن نبدأ بتصميم أسلوب للاستعلام داخل الذخيرة بشكل 
منظوميء؛ يضمن لنا ارتباط النصوص التحريرية داخل الذخيرة بمكافئها 
الأصلي سواء كان صونا أو نصنًا. وبالإضافة إلى ذلك؛ ينبغي حفظ فهارس 
الملفات' وجميع الملفات في نسخ إضافية غير تلك التي تَجْرري عليها عمليات 
التحليل والدراسة. 

ومن ناحية أخرى نجد أننا نلجأ إلى مصادر مختلفة للحصول على 
المادة اللغوية» فلو اتبعنا أساليب مختلفة لتكويد تلك المواد اللغوية وترميزهاء 
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فسوف يؤدي ذلك إلى حدوث خلل كبير في إدارة الحاسب وسيطرته على 
تلك المواد اللغوية. ولكي نصل إلى أسلوب موحّد في إدارة تلك المواد 
اللغوية نحتاج إلى استغلال ملامح النصوص واستخدامها كعلامات للترميز» 
وأكثر تلك الملامح التي نلجأ إليها هئ علامات الترقيم وأرقام السطور داخل 
النص والعلامات الخاصة ببدايات الأبواب والفصول والفقرات في النصء» 
وغير ذلك. وإذا لم تكن تلك العلامات مُوَحَّدَة داخل الذخيرة اللغوية فلن 
يتمكن الحاسب من التوصل إلى معلومات ذات فائدة فيما يتعلق ببنية 
النصوص داخل الذخيرة؛ ومن ثم لا يمكقه تمييز النصوص وأكوادها 
المختلفة» الأمر الذي ينشأ عنه مخرجات وبيانات خاطئة. 

في تمانينيات القرن العشرين توصل العاملون في مجال النشر إلى 
معيار قياسي لتكويد النصوص إلكترونيًا من أجل تجنب وجود تكرار غير 
مرغوب فيه في أثناء عمليات إدخال النصوصء ونتيجة لوجود لغة 
العلامات(7) التي أَطْلقَ عليها اختصار! اسم .561341 850قفهها5 156 
(©21888رطآ مناماعق1ة 0ع26:2115© » أصبح المتخصصون في هذا المجال 
يستخدمونها في عمل تكويد النصوص الإلكترونية. 


)١(‏ يُستخدم مفهوم لغة العلامات (31911396 1 هناأ131/]) في مجال تكنولوجيا 
المعلومات للإشارة إلى ثنائيات من الكلمات والرموز توضع بينها المكونات النصية 
لصفحة الويبء بالإضافة إلى مجموعة من العلامات تؤدي إلى عرض مكونات 
الصفحة وفقا لمواصفات معينة؛ مثل نوع الخط وحجمه ولونه؛ وهل تعرّض البيانات 
في شكل نصي أم في شكل جدولي» وشكل محاذاة الأسطرء وما إلى ذلك من 
مواصفات تحرير النصوص. وتنتمي لغة لل 501/1 ١‏ وال 11/1 لا وال اناالا 
إلى العائلة اللغوية نفسسهاء وتسستخدم بصورة أساسية في تسصميم صسفحات 
الويب.(المترجم) . 
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وبقي أن نشير إلى أنه قبل إجراء إعداد أنماط النصوص وتوحيدها بعد 
تجميعها داخل الذخائر اللغوية علينا أن نحصل على حقوق استغلال تلك 
النصوص من أصحابها الأصليين حتى لا تواجهنا مشكلة حقوق التأليف والنشر. 
4 - حماية الذخيرة اللغوية 

بعد أن نَبّنى الذخيرة اللغوية دائمًا ما نكتشف بها العديد من الأخطاء 
التي تحتاج إلى تصحيح؛ أو حتى إجراء تحسينات على بنيتها؛ ولذلك تكون 
هناك حاجة إلى إجراء صيانة يومية للذخيرة اللغوية وتطوير دائم لها. وبهذه 
الطريقة» يمكننا التوافق مع مستجدات الحاسب الآلي من حيث العتاد 
والبرمجيات؛ ومن حيث احتياجات المستخدم أيضاء هذا بالإضافة إلى أن 
تزايد الاهتمام بأنظمة فهرسة الذخائر اللغوية وأدوات تحليلها ومعالجتهاء قد 
أدى إلى وجود حاجة متزايدة لحماية الذخائر اللغوية. 
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الفصل الثالتٌ 
أنواع الذخائر اللغوية 


إن تنوع أشكال الذخائر اللغوية حقيقة لا يستطيع أحد إنكارها؛ ولكن لم 
يتوصل أحد حتى الآن إلى تسمية موحدة لكل نوع من هذه الأنواع. وقد سبق 
أن وضع دونالد ووكر (:18/211:6 1)502314؟*! المصطلحات الأربعة التالية 
لتسمية الأنواع المختلفة من الذخائر اللغوية» إلا أن هذه القضية مازالت 
مثيرة لجدل لم يُحْسَم حتى الآن. 
١‏ الذخيرة المختلطة (ودامعمءوممع)ء81) 


هذه أبسط وسيلة لجمع المادة اللغوية داخل ذخيرة لغوية؛ حيث يسعى 
المصممون قدر الإمكان إلى جمع كل ما يمكن جمعه من أنواع النصوص 
المختلفة» ولا يكون هناك أية قواعد سابقة فيما يتعلق باختيار المادة اللغوية» 
وتَعْتَبّر ذخيرة أيه سي إل/ دي سي آي 401/801 من الذخائر اللغوية التي 
تندرج تحت هذا النوع. وتتفق مع هذا النوع ذخيرة أو تي أيه 014 
للمستندات التابعة لجامعة أكسفورد؛ حيث جمّعت هذه الذخيرة بين أنواع 
مختلفة من المستندات دون أي تغيير في الشكل الأصلي للمستند. 


"- الذخيرة المتجانسة (دداهءعمعءع0م850]) 


وهي عكس النوع السابقء وتَعَتَبّر ذخيرة تيبوتر 0168م11 التابعة 
للحكومة الأميركية خير مثال على هذا النوع من الذخائر؛ حيث جَمَعَتَ في 
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طياتها النصوص المتعلقة بالشئون العسكرية فقط مثل أعط ال التجهيزات 
وتوقعات الأخطار وغير ذلك من الأمور المتعلقة بالشئون العسكرية. هذا 
وتعتبّر الذخائر اللغوية التي تصمم من أجل تخزين أعمال كاتب معين من 
هذا النوع أيضا. 
"'- الذخيرة المنظومية (804م»)5825) 

الغرض من إنشاء هذا النوع من الذخائر اللغوية ضمان جمع المادة 
اللغوية بما يُغطي إطارًا لغويًا واسعًا؛ بحيث تمثل الذخيرة اللغوية أكبر 
مساحة من اللغة. وتُعْتَبّر ذخيرة براون والذخيرة القومية الإنجليزية ©8316 
من الذخائر التي تحترم هذه القاعدة في جمع المادة اللغوية. وعند بناء هذا 
النوع من الذخائر اللغوية يتم الاهتمام بقضايا الثبات والتغير والمرجعية 
والتوازن؛ بالإضافة إلى القضايا المتعلقة بنطاق تغطية المادة اللغوية داخل 
الذخيرة. 
؛ - ذخيرة الاستخدام المتخصص (11260داء»م5) 

يُخْزن بتلك الذخيرة كل أنواع الذخائر المتخصصة: مثل ذخيرة العلوم 
الإنسانية بأميركا الشمالية وذخيرة لغة الأطفال 1145© التابعة لجامعة 
كارنيجي ميلو ن 7اأكاع تأدطنآ سوللء81 عأوء د ه0.. 
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الفصل الرابع 
تعريف بالذخائر اللغوية خارج الصين 


0 الأساسي من علم الذخائر اللغوية هو وضع تصور عام لجميع 

ئق والقوانين اللغوية في اللغة الطبيعية؛ وذلك عن طريق عمل دراسات ' 
واقعية واسعة النطاق على المواد اللغوية. وقد بدأ العالم الغربي في إنشاء 
الذخائر اللغوية مع بداية ستينيات القرن العشرين. وعلى مدى ثلاثين عامًاء 
تمكنت العديد من الحكومات والمؤسسات الاستثمارية والتجمعات العلمية على 
مستوى العالم من إنشاء أو السعي إلى إنشاء ذخائر لغوية على جميع 
الأشكال. وسوف نعَرف القارئ في هذا الفصل بأهم تلك الذخائر الغربية 
وأكثرها تأثيرًا. 
أولاً: ذخيرة إس إي يو 551 

في عام 1355, أطلق عالم اللغة الإنجلايزي راندولف كويرك 
011 طمآه0هه؟ مشروعًا أسماه 'در اسة في استخدامات اللغة الإنجليزية" 
(ع8هدنآ طمتاوصظ أو نوع جيك و25 )!127 وقد أطْلق على هذا المشروع 
اختصارً! اسم 45181 حيث قام كويرك في إطار خطة محددة بجمع كمية 
كبيرة من المواد اللغوية في تخصصات مختلفة:؛ بالإضافة إلى أنه استغل 
الحاسب الآلي في تخزين المواد التي جِمَعَها وتصنيفها. وقد كانت هذه هي 
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المرة الأولى في تاريخ الذخائر اللغوية التي يتم فيها اللجوء إلى حاسب آلي 
من النوع العملاق في بناء ذخيرة لغوية. وقد جَمَعت ذخيرة 51717 ما بين 


والققصصات: 


والجدول التالي يوضح نسبة تمثيل النصوص بأنواعها المختلفة داخل 


تلك الذخيرة. 


جدول (؟-١):‏ هيكل المواد اللغوية في ذخيرة 51717 


0 مطبوعات (5؛) 
علوم إنسانية_ (5) 
علوم طبيعية فا 
تعليم : 


موائد اشبارية عادية (2 
جرائد إخبارية عادية (4؛) 


قانون له 


| مسودات كتب 


ْ أصول تحريرية ٠‏ نقص)) 


مواد غير مطبوعة (5") | مواد شفهية 


أخبار 0 


مراسلات اجتماعية خاصة (4 
مراسلات اجتماعية عادية (4) 


مراسلات اجتماعية في شكل 


مشاحنات أ 


مؤلفات أدبية (5) | مراسلات غير رسمية عادية(؛) 8 


مراسلات غير رسمية في 


3 شكل مشاحنات حك 
نقد . (5) | مذكرات 7 (4) 
أصول شفهية ٠٠١(‏ نص) 

ب مد سابقًا (1) حوارات خاصة غير علنية 


مشاحنات غير علنية 
حوارات خاصة مُعلنة 
مشاحنات معلنة 
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| )1( 


حوارات إخبارية 


خواطز 


حكايات 


ويمكننا ملاحظة أن تلك الذخيرة تحتوي ٠7٠١‏ نص تم توزيعها 
بالتساوي على كل من المستوى التحريري والمستوى الشفهي من اللغة. 
ويخقوي كل لصن اخزالي +.أه كلمة اقرييا:ويضق: إجنالي عمد اعسات 
دحل التخيرة كنها إلى خواتي مازون قلمة»:ويقظى سحتو اها جدنع اطبقات 
المجتمع بمستوياته اللغوية المختلفة. وإذا نظرنا نظرة عامة إلى تاريخ تطور 
الذخائر اللغوية لوجدنا أن ذخيرة إس إي يو 5817 التي أنشأها كويرك تُعتَبْر 
عملا عظيمًا سواء من حيث وجهة النظر البحثية أو من حيث منهجية التنفيذ. 
وقد اعتبرت هذه الذخيرة اللغوية بمثابة فاتحة طريق جيدة أمام علم الذخائر 
اللغوية وقَدّمَت أفكارً!ا علمية جديدة في مجال البحث اللغوي. 


ثانيا: ذخيرة براون 

في ستينيات القرن العشرينء أنشأ كل من فرانسيز 5+5 وكوشيرا 
8د في جامعة براون الأميركية أول ذخيرة قياسية على مستوى العالم 
تقوم بجمع العينات اللغوية طبقا لقواعد منظومية؛ وهي ذخيرة براون اللغوية. 
وقد كان الغرض الأساسي من إنشاء تلك الذخيرة هو دراسة الإنجليزية 
الأميركية المعاصرة. ويصل حجم تلك الذخيرة إلى مليون كلمة. 

وقد تم جمع المادة اللغوية لهذه الذخيرة من النصوص العامة التي كتبها 
الأميركان في عام .١17١‏ وتغطي المادة اللغوية خمسة عشر موضوعًا من 
خلال خمسمائة عينة. وكل عينة لا يقل عدد كلماتها عن ٠٠٠١‏ كلمة. وقد 
اعتمدت دار النشر التابعة لجامعة براون على الدراسات الإحصائية التي 
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أْجْرِيت على تلك الذخيرة في إصدار معجم عن معدل تكرار الكلمات في 
اللغة الإنجليزية!*! وكان ذلك في عام .١157‏ وفي سبعينيات القرن 
الغشرين؛ صمم كل من جرين 6280 وروبين (هاطه) برتامجًا أطئف] 
عليه اسم تاجيت (]1ع128) يُسْتَخْدَم في عمل ترميز لأنواع الكلمات داخل تلك 
الذخيرة البالغ عدد كلماتها مليون كلمة» واستخدما في ذلك عدد 4١‏ علامة 
ترميز لتصنيف الكلمات» ووصل عدد القواعد التي لجئا إليها لتنفيذ تلك 
العملية حوالي 72٠٠١‏ قاعدة» ووصلت نسبة الدقة في تميز أنواع الكلمات إلى 
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١‏ توزيع المادة اللغوية داخل ذخيرة براون[30] 


تتوزع المادة اللغوية في ذخيرة براون على ١١‏ فئة يُرْممَزلها 
بالحروف من 18 - » من بينها الفئات من 3 - 4 تندرج تحت بند النصوص 
الإخبارية» أما الفئات من 1-12 فتندرج تحت بند الأعمال الخيالية الإبداعية. 
أما الأرقام الموجودة في كل فئة فتشير إلى عدد العينات في كل منها. 

) الجرائد والمجلات: في مجال الأخبار. 
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8) الجرائد والمجلات: في مجال الاجتماعيات 


ْ جرائه يومية متجلات امبر كيه 2 
قضاد جد ية ١‏ 
مراسلات القراء 


0( الجرائد والمجلات: في مجال النقد 


(موضوعات النقد هي: المسرحيات» والكتب» والموسيقى» والرقص). 


0) الديانات 
كتب ١‏ | 
دوريات 5 
دوريات : | 


- 


5) المهارات والهوايات 
1 كتب 1 ١‏ 
قوريلت | 34 


7) الحكايات الشائعة 
كتب ره 0 
دوريات حلا 
6( الأدب» والتراجمء والسير الذاتية 
كتب 57 
دوريات وذنا 
11) متفرقات 


1 مستكذات حكومية 
تقارير مالية 
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1) كتب تعليمية وعلمية 
|22 العلوم الطبيعية 
علب 
الرياضيات 
الامشباع و السلوكيات 
السياسة والقانون والتربية 
علم | لأجناس 
الهندسة والتكنولوجيا 
قصص 
ل ا 
القتصص البوليسية 
قصص 
ا 
ل( القصص الخيالية 


قصص 


5 قصيدرة 


(1 


“1 


1) قصص المغامرات والرحلات 


قصصر 


قصص قصيرة 
3 القتصص الرومانسية 
شمر 
قصص قصيرة 
0( الفكاهة 
0 
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وبعد تحديد أنواع النتصوص وتفريعاتها الدقيقة وعدد العينات في كل 
نوح» تم جمع تلك العينات وإدخالها إلى ذاكرة الحاسب. وفي البداية كان 
هناك التزام بالأعداد المقررة لكل فرع في اختيار النصوص؛ وبحيث لا يقل 
كل نص عن ٠‏ كلمةء مع مراعاة أن تنتهي كل عينة بجملة كاملة. كما 
يتم وضع رقم كودي لكل نص عبارة عن رمز التصنيف الذي ينتمي إليه 
النص مضافا إليه عدد مكون من رقمين.. 
"- الإصدارات المختلفة لذخيرة براون 

بعد إنشاء ذخيرة براون تتابعت أعمال تطويرهاء وتم ذلك من خلال 
ستة إصدارات» وكان كل إصدار من هذه الإصدارت» يستهدف مجموعة من 
الباحثين في أغراض مختلفة» وسوف نتحدث عن تلك الإصدارات تفصيلاً 

1 

) الإصدار "4": 

كان هذا الإصدار هو الشكل الأول من الذخيرة اللغوية براون. وقد تم 
بناؤه في عام 1355 إلا أن ذلك الإصدار قد تأثر بإمكانات الحاسب آنذاك؛ 
بالإضافة إلى استخدام تقنيات معقدة لعمليات التكويد. 

ب) الإصدار "58: 

وهو الإصدار الذي ظهر بعد إجراء معالجة علنتئ الإصدار"4"”: 
وتمحورت تلك المعالجة حول حذف علامات الترقيم والكلمات الممشبّكة 
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النسخة المُجَرّدة (60مم8)؛ حيث إن هذه المعالجة مفيدة في عمل 
الدراسات الخاصة بالكلمات المفردة» هذا بالإضافة إلى أن هذه النسخة قد 
مَهّدت السبيل أمام كل من فرانسيز وكوسيرا لعمل الإحصائية الخاصة بمعدل 
تكرار الكلمات في الإنجليزية الأميركية. 

ج) الإصدار "©": 

وهو الإصدار الذي يحتوي ترميز الأنواع النحوية للكلمات؛ وتم تنفيذ 
هذا الإصدار بناءً على الإصدار"8. وقد تم توحيد الإشارات المعبرة عن 
نوع الكلمات؛ واستٌخدم في ذلك عدد 2١‏ علامة للترميز النحوي. 

د) الإصدار برجن الأول: 

هذا الإصدار والإصدار التالي له-قام بهما مركز الحاسب الآلي بجامعة 
برجن تحت إشراف العالم جوستين (305410): وقد احتفظ هذا الإاصدار 
بالحروف الكبيرة والحروف الصغيرة في الإنجليزية وترميز علامات الترقيم» 
مع الاستعانة بأقل قدر من الأكواد؛ بالإضافة إلى الاحتفاظ بالمعلومات 
التحريرية للنصوص. 

ه) الإصدار برجن الثاني: 

الاختلاف الوحيد بين هذا الإصدار والإصدار السابق له هو تقليل قدر 
المعلومات التحريرية الخاصة بالنتصوص؛ بالإضافة إلى وجود نظام متكامل 
يُمكْن من فهرسة الكلمات التي تحتويها الذخيرة. 
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و) الإصدار براون مارك: 

أنهي هذا الإصدار من خلال جامعة ستانفورد» وكان الغرض منه 
تمكين ذخيرة براون من التوافق مع برمجيتين شائعتين للاستعلام» وإحدى 
هاتين البرمجيتين تتيح إمكانية الاستعلام داخل الذخيرة عن كلمات محددة أو 
جمل كاملة طبقا لسياق معين. أما الأخرى فتتيح إمكانية الاستعلام عن 
النصوص التي تندرج تحت سياق معين طبقا لبعض الكلمات المفتاحية. 

وإذا نظرنا إلى ذخيرة براون مقارنة بباقي الذخائر اللغوية لوجدنا أنها 
اتبعت تصميما في غاية الدقة من حيث العينات وأسلوب جمع المادة اللغوية. 
ثالئًا: ذخيرة لوب 

صاحبُ اقتراح إنشاء هذه الذخيرة اللغوية هو العالم جيفري ليتش 
(طاعععمآ (2604/:6)) من جامعة لانكاستر. وكان ذلك في سبعينيات القفرن 
العشرين؛ ولكنها في النهاية نفدت بإشراف العالم ستيج جوهانبسون 5808) 
(70112135508, من جامعة أو سلو بالنرويج» وفي النهاية تم تحميلها باسم ذخيرة 
لوب 1,018 في مركز الحاسب والعلوم الإنسانية التابع لجامعة برجن !!"ا. 

وهذه الذخيرة بمثابة توأم لذخيرة براون» وكان الغرض من إنشائها 
دراسة اللغة الإنجليزية. وقد جاء تقسيم المواد داخل ذخيرة لوب مطابقا تمامًا 
لتقسيمها في ذخيرة براون حتى يتسنى عمل الدراسات المقارنة بين النموذج 
الأميركي والبريطاني في اللغة الإنجليزيةا*' ويوضح الجدول التالي توزيع 
المواد اللغوية داخل هاتين الذخيرتين. 
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جدول (؟-2): الهيكل الداخلي لذخيرتي براون ولوب 


شكل المادة اللغوية 
الجرائد والمجلات: في مجال 
0 التقارير الإخبارية 1 
الجرائد والمجلات: فم مجا 
2 اجزاتة وللمجلات: في سبال 0 0 
الاجتماعيات _ 
© | الجرائد والمجاات: فى سجال النقد ١‏ 2 
ه« | الديانات ل | ب | 
0 المهار ان اليو ابالت كم | ابم 
2 3 8 
| ا ا حكايات شائعة 57 4 
| © | الأدب 1 هلط | بن 
لله 11 متفرقات 5" له "٠‏ هك 
ل التعليم 1 8م 0 ثم 
1 1 لصن عاكية | ه# | هم 
1 قصص بوليسية 7 ؟” 
- 0 1 8 
11 | قصص خيال علمى 0 5 
| 8غ | مخابر لك | وم 8 | 
ماقيية وم 00 أ 
| ”)1 قصص رو 8 - 
1 فكاهة 0 55 94 
الإجمالى 1 وت 0-0 م 


فونه مرك 7 علامة. واستخدموا أسلوبًا خاصًا لترميز أنواع الكلمات 
مفكلقا غق ذلك المستخدم في ذخيرة براون لتمييز الأنواع النحوية للكلمات 
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داخل ذخيرة 1,08؛ حيث طوروا برمجية لترميز أنواع الكلمات أطلقوا عليها 
اسم تاجيت (788810). وقد اعتمد هذا النظام على الكلمات التي تم ترميزها 
من حيث النوع النحوي للكلمة في ذخيرة براون؛ وعن طريق قوانين 
الإخصاء تمكنت البرمجية من وضع مصفوفة تَعَبْر عن احتمالات التغير في 
ا 00 النص» وعن 


لكلمات داخل ذخيرة لوب 108 بأسلوب 1 أكثر ؛ ذكاء. وقد تمكن فريق العمل 
من خلال تلك البرمجية من الارتقاء بنسبة الدقة في تحديد أنواع الكلمسات 
داخل الذخيرة البالغ عدد كلماتها مليون كلمة إلى نسبة 9097-57. وتُعْتَر 
هذه الطريقة في التعامل مع الذخائر اللغوية إنجازً! عظيمًا تم التوصل إليه في 
حقل معالجة اللغات الطبيعية. ش 

كما اتضح للعلماء العاملين في مجال معالجة المعلومات اللغوية من 
خلال تلك الحقيقة العلمية مدى محدودية وسائل الذكاء الاصطناعيء التي 
تعتمد ل الحقائق المجردة مقارنة بتلك القوة الهائلة والأقق البغيد الذي 
تطرحه الأنظمة التي تعتمد على الإحصاء والاستقراء في التوصلٍ إلى سبر 
أغوار الحقائق اللغوية داخل النص. ولعلنا لا نبالغ عندما نقول: إن برنامج 
(0نععة1) قد فتح مجالا وأَقُقَا واسعًا في حقل معالجة اللغات الطبيعية» الأمر 
الذي أعطى إشارة الانطلاق لتطوير منهجيات التعامل مع الذخائر اللغوية 
خلال تسعينيات القرن العشرين. واعتمادًا على الأساس الذي قدمته ذخيرة 
لوب 1,08 في ترميز أنواع الكلمات نحويّاء أعلن كمل مسن جوهائسون 
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(دهو255ط10) وهوفلاند (11011280) النتيجة الإحصائية لمعدل تكرار الكلمات 
وأنواعها النحوية في اللغة الإنجليزية عام 949١3*11ا,‏ كما قام فريق من 
الباحثين بجامعتي لانكاستر وليدز بعمل ترميز للقواعد النحوية داخل ذخيرة 
لوب؛ تمهيدا لاستخدام ذلك الترميز في عمل تحليل نحوي آلي قائم على 
نماذج علم الاحتمالات. 


رابعا: ذخيرة إل إل سي ©.1.1 الشفهية 

كان إنشاء الذخائر اللغوية الثلاث السابقة بمثابة وضع نهاية لعسصر 
إهدار طاقة الإنسان ووقته في جمع المادة اللغوية» وإرساء لمكانة علم 
الذخائر اللغوية ليحتل موقعه المناسب في الدراسات اللغوية. إن ظهور 
الذخائر اللغوية الثلاث قد مكن العلماء من تطوير أسلوب جمع المواد اللغوية 
من مستوى الكلمة والعبارة والجملة البسيطة كما كان يحدث في المراحل 
الأولى من تاريخ جمع المواد اللغوية بالطرق اليدوية لينتقل مباشرة إلى 
مستوى جمع النصوص اللغوية الكاملة» كما ساهم أيضنًا في تطوير نطاق 
المادة التي يتم جمعها من إطار مُحَدَّد إلى أُطر وأفرع اللغة المختلفة. إلا أن 
تلك الذخائر الثلاث كانت تركز على المستوى التحريري من اللغة وخاصة 
الذخيرتين الأخيرتين» ولم يكن هناك مجال لجمع مواد لغوية شفهية. ول ذلك 
بدأ العمل في إنشاء ذخيرة للنصوص الشفهية عام .١91©‏ 

في ستينيات القرن العشرين؛ أجرى العالم الشهير كويرك من جامعة 
لندن دراسة عن أساليب استخدام اللغة الإنجليزية سجل خلالها مواد شفهية 


وصل حجمها إلى ما يزيد عن ألفي ساعة من حوارات ومواد إذاعية وغير 
ذلك؛ وبعد ذلك حول تلك المادة اللغوية الشفهية إلى صورة ورقية. وفيما بعد 
تولى العالم سمفقارتفيك (578:4511) من جافعة لوند السويسرية مهمة 
تحويل تلك المادة إلى نسخة رقمية يتم التعامل معها من خلال الحاسب الآلي. 
وفي الوقت ذاته أطلق العلماء مشروع ملخص اللغة الإنجليزية الشفهية ©7575 
طمتاومصظ سعاممك 2ه نوعنك الذي أطلق عليه اختصارًا اسم إس إس إي 
555 والذي يُعْتَبّر في حقيقة الأمر توأم مشروع إس إي يو 5817 الذي 
أشرنا إليه سابقًا. وكان الغرض من هذا المشروع استغلال قدرات الحاسب 
العالية في معالجة البيانات آليّا للتوصل إلى المعلومات الأولية عن اللغة 
الشفهية الإنجليزية من متن تلك الذخيرة. وقد شملت عملية ترميز الذخيرة 
إجراء تحليل للإيقاع ووحدات التنغيم» وأصوات التوكيد والأساليب المختلفة 
للغة الشفهية؛ الأمر الذي اعتَبر مادة أولية ذات قيمة عالية لدراسة اللغة 
الإنجليزية الشفهية. وقد اكتمل العمل في مشروع ذخيرة إس إس إي 5518 
عام .١38١‏ وقد أُطلق على هذه الذخيرة الشفهية اسم إل إل سي ©,آبآء وهو 
اختصار ل طلاذتاعهآ مع01م5 04 كناط005) 0نارآ-2 10200 بمعنى ذخيرة 
لندن - لوند للغة الإنجليزية الشفهية. 

وقد بدأت ذخيرة 1.1.6 بعدد من النصوص يصل إلى 47 نصنًا 
ويحتوي كل نص حوالي 05.6٠6٠‏ رمز. ولتسهيل عملية البحث داخل تلك 
الذخيرة قام المصممون بعمل تصنيف دقيق وفهرسة جيدة لمحتوياتها» وقد 
َسنت النصوص إلى خمسة تصنيفات رئيسة؛ هي: 
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-١‏ حوارات وجهًا لوجه. 

؟- حوارات تليفونية. 

“'-, مناقشات» وتحقيقات صحفية» ومجادلات. 

- مناقشات جماهيرية حية» ومناظرات»؛ ومحاضرات دون إعداد سابق. 

قت فيحاضواث جماهرزرة مذ ةسايقا: 

وبعد ذلك تم عمل تصنيفات أكثر دقة في إطار تلك التصنيفات العامة 
ثم أعطي لكل صنف من هذه النصوص رقم مضاقا إليه الحرف 5. 
وبالإضافة إلى ما قام به سؤارتقيك (5:8:741) من عمل ترميز للهجات 
والإيقاع داخل مقاطع الكلام في الذخيرة؛ فقد وضع تصميما دقيقا لحزمة من 
برمجيات الفهرسة أُطلق عليها اسم "الكلمات المفتاحية داخل السياق »ك5 
اناده 13 550008 وَيُطْلَق عليها اختصارًا ©1981. وهذه الحزمة البرمجية 
لا تَسَهّلٌ عمليات فهرسة النصوص فحسب: بل يمكن الاستعانة بها في البحث 
عن مقاطع ذات خصائص لغوية معينة داخل النصوصء لدرجة أنه أصبح 
هن الممكن التغرت اعلى: عند 'مرات ظهستؤن الكلفاك وفوعها لوي 
وعلاقتها الاقترانية مع غيرها من الكلمات داخل أي نص. وهذا المستوى من 
الفهرسة لا يتطلب عمل تكويد لكل فقرة من النص فقطء وإنما يصل الأمر 
إل تعنتيم حومة من الرمنوة كفي لقن انرا الكلبنات:الثن :تعمل خمناتس 
النص. وفي أثناء عملية ترميز الأنواع النحوية للكلمات تكون البداية بكتابة 
حرف إنجليزي كبير يشير إلى النوع النحوي للكلمة» وبعد ذلك يضاف إلى 
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هذا الحرف علامة أخرى للتعبير عن أشكال التغير المختلفة التي تحدث 
للكلمة. على سبيل المثال»ء يضاف إلى الحرف 3 العدد ؟ في صورة (8+2) 
للتعبير عن صيغة المثنى من الاسم, وتمنْتَخْدم مثلاً الصيغة (2+/8) للتعبيير 
عن الحالات الإعرابية المختلفة التي تلحق بالاسم وغير ذلك. وبالإضافة إلى 
ذلك: ومن أجل عمل دراسات أكثر دقة على قواعد اللغة الشفهية» قاموا 
بتصميم مجموعة من العلامات النحوية للتعرف على وحدات التحليل النحوي. 
فضلاً عن قيامهم بتصميم برنامج لتحليل التعبيرات اللغوية. وقد وصل حجم 
ذخيرة إل إل سي 1,1,0 اللغوية في النهاية إلى نصف مليون كلمة. 
خامسا: ذخيرة كوبويلد 0110© 

الاسم الكامل لذخيرة كوبويلد (001110)) هو ) ضقطمعتصعع8 عمتلامه 
عكقطة)22 ععقتاعصمقآ لقدمتأممععاه1 وأو لأملة)ء وهي ذخيرة للغة 
الإنجليزية تم تأسيسها بالتعاون بين دار نشر جامعة كولينز الإنجليزية 
وجامعة برمنجهان. ويتمثل الغرض من بناء: هذه الذخيرة اللغوية في إجراع ٠‏ 
دراسات معجمية على أساس المواد اللغوية المخزنة بداخلها. وقد تم إنسشاء 
ذخيرة كوبويلد بدعم وتشجيع من العالم جون سنكلير (عنهكءه51 «طه3) في 
ثمانينيات القرن العشرين: وعلى أساس ذلك ابتكقر حزمة من الأدوات 
البرمجية وقام بتطويرها لإدارة المادة اللغوية المخزنة بها وتحليلها» واستطاع 
أن يُكُوْن فريقًا من الخبراء المتخصصين في علم المعاجم وعلم الذخائر 
اللغويةاة*!. وقد كانت المبادئ التي وُضعت لاختيار المواد اللغوية لذخيرة 
كوبويلد في الثمانينيات كما يلي: 
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-١‏ اللغة التحريرية تمثل نسبة ©901» والشفهية نسبة ©؟90. 

-١‏ يُشترط في المواد اللغوية التي يتم جمعها أن تكون من اللغة 
الإنجليزية القياسية» ولا يتم الجمع من اللغة الشفهية غير القياسية. 
وتمثل المادة المجموعة من الإنجليزية البريطانية نسبة 90٠١‏ أما 
الإنجليزية الأميركية فتمتل 96075 أما باقي مناطق اللغة الإنجليزية 
فقد تم تمثيلها بنسبة 905 من المادة اللغوية. 


"- تعكس المادة اللغوية استخدامات اللغة الإنجليزية المعاصرة» مع 


السعي قدر الإمكان لأن تكون المادة اللغوية حديثة. 
؛- لا يتم جمع الشعر أو المسرح أو النصوص التقنية. 
5- تتمثل مصادر المادة اللغوية في البالغين من الأعمار فوق سن ١١5‏ سنة» 
ولا تقل نسبة الأعمال النسائية عن 9675 من إجمالي الذخيرة اللغوية. 
5- المادة المجموعة لا تكون في صورة عينات أو مقتطفات» وإنما 
في صورة كاملة أو أجزاء كبيرة من نصوصء في حدود سبعين 
ألف كلمة:؛ ليتناسب ذلك مع الدراسات القائمة على مستوى 
النصوص الكاملة. 
وصل حجم المادة الأولية التي تم جمعها في البداية إلى عشرين مليون 
كلمة. ويرجع الفضل إلى هذه الذخيرة اللغوية الكبيرة في إصدار (معجم 
كوبويلد للغة الإنجليزية)!©*! ومقدمنء21 عوهمدوممآ لاكذاعمظ 081011:92© 
الذي أصدرته دار نشر كولينز عام ١987‏ الأمر الذي اعثّبر أول حدث من 
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نوعه في مجال تأليف المعاجم على مستوى العالم. ويتمثل الاختلاف بين 
معجم كوبويلد وغيره من المعاجم في أنه يحتوي أمثلة لغوية دقيقة وواضحة 
عن الكلمات وشرحها وأساليب استخدامهاء وأن جميع الأمثلة المذكورة 
مصدرها لغة حقيقية» ولم تتم صياغتها بمعرفة مؤلفي المعجم. وتُعتَبّر تجربة 
مؤلفي هذا المعجم مثالاً نموذجيًا لإمكانية الاعتماد على الذخائر اللغوية 
ومنهجية تحليل المواد اللغوية فيها لإجراء دراسات لغوية واسعة النطاق. 
وتَسْتَخْدَم ذخيرة كوبويلد اللغوية بصورة أساسية في الدراسات المتعلقة 
بالمفردات» والمعاني» والقواعدء بالإضافة إلى طرق الاستخدام اللغوي في 
اللغة الإنجليزية. كما يتم إمدادها بالمواد اللغوية الحديثة بصورة متتالية الأمر 
الذي جعل من ذخيرة كوبويلد اللغوية ذخيرة ديناميكية تتغير بصورة متوالية. 
وقد اكتشف العلماء من خلال دراساتهم لذخيرة كوبويلد على مدى 
عشر سنوات أن إطار المفردات في اللغة الإنجليزية متسع للغاية» بالإأضافة 
إلى أن تلك المفردات يتم استخدامها بطرق متعددة. وذلك يبت أن الدراسات 
اللغوية يلزمها من العينات ما يتناسب مع هذا الحجم من الاستخدام المنتقوع 
للغة ومفردتها. ويطلق على هذه الذخيرة في الوقت الحالي اسم "بنك اللغة 
الإنجليزية" (طوذاهه8 06 :821 186) حيث وصل حجم المادة اللغوية التي 
تضمها "٠١‏ مليون كلمة؛ وقد أَجْريّت عملية ترميز لأنواع الكلمات داخل 
هذه الذخيرة اللغوية؛ بالإضافة إلى عمل تحليل نحوي جزئي للمادة اللغوية 
بها يصل إلى ٠٠١‏ مليون كلمة. والمادة اللغوية المتضمّنة في تلك الذخيرة 
كلها مواد حديثة؛ حيث إن معظم النصوص الموجودة بها من النصوص التي 
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ظهرت بعد عام ٠134١»ء‏ وتشمل المواد التحريرية بها نصوصا قصصيةء 
وغير قصصية»ء بالإضافة إلى الجرائد والمجلات والنشرات والمراسلات 
والتقارير وغير ذلك. أما المواد الصوئية فتشمل حوارات يومية:؛ وإذاعة؛ 
ومؤتمرات ومقابلات؛ ومناقشات... إلخ. ويرى س تكلير أن هذه الذخيرة 
اللغوية تَقَدم أمثلة حقيقية وموضؤعية عن اللغة الإنجليزية في مجالات الحياة 
اليومية لغالبية الناس وذلك في مستويات الاستماع والحديث والقراءة 
والكتابة. 
كما يقدم كوبويلد برمجية تتيح لمؤلفي المعاجم وعلماء اللغفة إجراء 
تحليل معقد على المادة اللغوية داخل الذخيرة؛ حيث يمكن لهذه البرمجية أن 
تقوم بالمهارات التالية: ش 
-١‏ عمل مسح لأنماط التراكيب التي تأتي مع كلمة محددة 
واستخراجها. 
؟ - الكشف عن معدل تكرار الكلمات. 
؟- استخراج أمثلة واقعية عن الاستخدام اللغوي لكلمة من الكلمات: بل 
إجراء تحليل لتلك الأمثلة» ونسخ النتائج على وسائط التخزين الصلبة. 
في عصر تكنولوجيا المعلومات؛ أصبحت هناك حاجة مُلمّة تتزايد 
بصورة مستمرة لأن يقوم الحاسب بعمل معالجة المواد اللغوية؛ بما في تلك 
معالجة الشكل الكتابي للغة» أو الاستكشاف والإبحار داخل المعلومات 
اللغوية» أو الترجمة الآلية وغير ذلك. وتعتبّر خدمات المعلومات الرقمية من 
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الأجزاء التي تلعب دور! محوريًا في هذا المجال. ويمكن لذخيرة كوبويلد أن 
تقدم معلومات غزيرة فيما يتعلق بالمفردات والقواعد, الأمر الذي يضمن 
تطوير التكنولوجيا الخاصة بمعالجة اللغة في المجالات سالفة الذكر 
وتسديكيا: ٌ 
سادسسا: ذخيرة لونجمان اللغوية 1028:1258 

ظهرت هذه الذخيرة نتيجة العمل الذي قامت به لجنة ذخيرة ة لونجمان 
©0221 كنام001) 1,08332 في الفترة من يناير ١188‏ إلى نوفميبر 
وقد أشارت سومرز (5053365) في الوثائق الخاصة بإنشاء الذخيرة 
إلى الخصائص التي اتبعت لتصميم ذخيرة لونجمان وهي كالتالي: 


الهدف من إنشاء ذخيرة لونجمان هو بناء ذخيرة لغوية متععددة 
الأغراض بمعايير موضوعية 

كان الهدف من ذخيرة لونجمان هو إنشاء ذخيرة لغوية جديدة تماما 
للغة الإنجليزية؛ وذلك عن طريق جمع كميات كبيرة من الدصوص طبقا 
لمقاييس ومعايير مناسبة وواضحة؛ وذلك بغرض وضع تلك الذخيرة لخدمة 
صناعة المعاجم وخدمة المحافل العلمية. في البدايات الأولى للذخائر اللغوية 
تكونت ذخيرتا براون ولس إي يو ([5581) طبقا لإطار معين تم وضعه سابقا 
لتحديد حجم المادة اللغوية. وكان الأسلوب المُتبّع دائمًا هو أن المادة اللغوية 
يتم جمعها بصورة مباشرة (فيما عدا النزر القليل) ولم يعتمد مصممو هاتين 
الذخيرتين على أسلوب المواد القياسية التي يتم تحديدها سابقا في جمع المادة 
اللغوية؛ الأمر الذي تسبب في وجود أمثلة لغوية مُشوّهة. أما ذخيرة لونجمان 
فقد اتبَعّت منهجية مختلفة عن الذخائر السابقة في بناء الهيكل الأساسي لها. 
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"- مبادئ تصميم ذخيرة لونجمان 

أ) الاعتماد على جمع النصوص التي تنتمي إلى أهل اللغة الإنجليزية 
الأصليين 

حيث اعتمد مصممو ذخيرة لونجمان بصورة كبيرة على تراكم المعرفة 
اللغوية لأهل اللغة الإنجليزية على مدى أزمان طويلة» وأعطوا أولوية كبيرة 
للحس اللغوي لأهل اللغة الإنجليزية. واعتمادًا على ذلك المبدأ تمكن مؤلفو 
المعاجم من تحليل المعلومات اللغوية الخام داخل الذخيرة اللغوية وتفسيرهاء 
بالإضافة إلى أنهم تمكنوا من تمييز ما يمكن القياس عليه وما هو نادر 
الظهور داخل اللغة. ولكن في الوقت ذاته قدمت تلك الذخيرة لمؤلفي المعاجم 
كمية كبيرة من المعلومات تفوق إحساسهم الموضوعي تجاه اللغة بشكل كبير» 
واستطاعت الذخيرة في أغلب الأحيان أن تتغلب على سوء الفهم الذي كان 
يبدو على الناس في السابق تجاه بعض الكلمات وأنماط القواعد النحوية» 
بالإضافة إلى أنها ألقت الضوء على العديد من الخصائص اللغوية الجديدة 
للكلمات. وهذا ما لم يكن لمؤلفي المعاجم تصوره في الماضيء فالأهم عند 
بناء الذخيرة اللغوية هو احترام شعور أهل اللغة الأصليين تجاه اللغة؛ 
بالإضافة إلى سلطة الذخيرة اللغوية في إقرار ما يتعلق بذلك الشعور من 
خصائص اللغة. 

ب) إتاحة الذخيرة اللغوية لخدمة البحث العلمي 

كان الهدف هو إنشاء ذخيرة لغوية متوازنة تَعَبّر عن اللغة الإنجليزية 
خلال القرن العشرين» وبحيث تُغطي تلك الذخيرة كلا من النموذج الأميركي 
والبريطاني من اللغة الإنجليزية. كما تشمل التحولات الرئيسة على ساحة 
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القوميات الأخرى الناطقة باللغة الإنجليزية» ويكون ذلك مُشتّملا على 
الإطارين التحريري والشفهي من اللغة. 

الاستخدام الأساسي للذخيرة هو: إتاحة بيانات لغوية موضوعية يمكن 
الاعتماد عليها في تقديم تصور إجمالي للغة يمكن الاعتماد عليه؛ بالإضافة 
إلى وضع الأساس لتأليف المعاجم وكتب النحو وجميع المؤلفات الأخرى في 


علوم اللغة. 
الاستخدام الفرعي للذخيرة هو: تقديم ذخيرة متوازنة الحجم عن اللغة 
الإنجليزية في القرن العشرين. 


ج) البدء بتطوير الجزء المتعلق بالمستوى التحريري. 
*- منهجية اختيار المادة اللغوية - 

المادة اللغوية موضع الاختيار ينبغي أن تعبر عن اللغة الإنجليزية في 
القرن العشرين ابتداءً من عام »١3٠٠‏ مع التركيز بصورة أكبر على المواد 
اللغوية المعاصرة. ونقسّم النتصوص من. حيث.النوع إلى نصوص معلوماتية 
(©31تمءم؟ه1) ونصوص إبداعية (15188128447) ويشغل كل من هذين 
النوعين نسبة 905٠‏ و٠904‏ على التوالي» إلا أن القائمين على بناء ذخيرة 
لونجمان يعتقدون أن النصوص القصصية أكثر تأثيرًا من النصوص غير 
الأدبية» بل لها عدد أكبر من القراءء ويمكن إثبات ذلك ببساطة عن طريق 
الاطلاع على المعلومات الإحصائية عن حالات الاستعارة والقراءة داخل 
المكتبات. 


أ) موضوعات النصوص: النصوص الحوارية أكثر مسن النصوص 
الإبداعية 

تتوزع المادة اللغوية داخل ذخيرة لونجمان على عشرة مجالات. من 
بين هذه المجالات نصوص قصصية تصل إلى 965٠‏ من حجم الذخيرة 
وتشمل هذه النسبة الشعر والمسرح والكوميديا. وتُعْثَبَر النصوص التحريرية 
هي المحرك الأساسي لاختيار الموضوعات وليس الشكل الأدبي. ونسبة ما 
تمثله الموضوعات العشر من حجم الذخيرة كما يلي: 


)١‏ الطبيعة والعلوم البحتة 
0 الشئون الدولية 


زر 
>- 
55 
0 
5 لا 5-5 
1 
1 
كم 


07 7 الشعر والمسر والكوميديا‎ ١ 


ب) الخصائص الرئيسة للمستندات 

من أجل تقسيم النصوص الموجودة داخل الذخيرة اللغوية حسب 
الأنواع المختلفة للمستندات تم اتباع أربعة تقسيمات خارجية فرعية تشير إلى 
الخصائص الرئيسة للنص؛ مثل: المنطقة التي ينتمي إليها النص؛» وزمن 
صدوره؛ ووسيط نشر النصء» ورتبته. وجميع هذه الخصائص فيما عدا رتبة . 
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النص بمثابة عنصر قياس موضوعي للنص؛» وكل نص من النصوص 
التحريرية ينبغي أن يتضمن إشارة إلى تلك الخصائص. 

المنطقة التي ينتمي إليها النص: تعرضت مواد الذخيرة لإنجلترا 
بصورة أساسية. على أساس النسبة التالية: إنجلترا :965٠‏ وأميركا 2964٠‏ 
والدول الأخرى .95٠١‏ 


زمن صدور النص: لم تلجأ ذخيرة لونجمان إلى فكرة وجود فترة 
زمنية محددة لاختيار المادة اللغوبة»؛ وإئما احترمت منهجية الذخيرة 
التاريخية؛ حيث غطت المواد الإنجليزية منذ عام ١٠1١؛‏ ولذلك نجدها 
ملائمة بصورة أكثر لتغطية أهداف الذخائر اللغوية ذات الاس تخدام العام. 
وتتضح نسبة توزيع النصوص زمنيًا من خلال الجدول التالي: 

جدول (؟-”): الفترات الزمنية للنصوص في ذخيرة 
لونجمان 

التاريخ_ 


١949-66 
1959-62 


- حتى_الآن 
وسيط النشر: مصادر جمع النصوص التحريرية تشمل الكتبء. 
والجرائد» ومتفرقات. وهذه المتفرقات تشمل النشرات غير المطبوعة 
والإعلانات والتقارير التجارية والإخطارات الحكومية والمفشورات وغير 
ذلك. ومن بين النصوص التحريرية كان المصدر الأساسي للجزء الخاص 
: بالنصوص الإبداعية هو الكتب» أما النصوص المعلوماتية فتشمل الكتب 


النصوص الإبداعية | النصوص المعلوماتية 
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والجرائد والمتفرقات. أما نسب الوسائط المختلفة قهي 9980 للكتب» 
و 961١,"‏ للجرائدء و905,7 للمتفرقات. 

رتبة النص: وهذه أصعب خاصية يمكن تحقيقها لضمان توافق الأنواع 
داخل الذخيرة؛ حيث تحتل النصوص الإبداعية بما تشمله من قصص أدبية 
الرتبة الأعلى بين النصوصء يليها النصوص الخاصة بالمعلومات 
والنصوص التكنولوجية. وبالإضافة إلى ذلك فقد صٌمّمَت ذخيرة لونجمان 
لتشمل بعض الخصائص الثانوية للنصوص. ظ 

انطلاقا من المقاييس والقواعد السابقة» فقد انتقت ذخيرة لونجمان 
نصوصها من أصل ٠٠٠١‏ نوع من المصادر اللغوية» من بينها أكثر مسن 
نص تم اجتزاؤه من كتب؛ وقد وصل حجم المادة اللغوية في الذخيرة بأكملها 
إلى 76 مليون كلمة متاحة للباحثين من أجل الاستخدام في البحث اللغوي. 
سابعا: الذخيرة القومية البريطانية 78110 

مما لا شك فيه أن الذخيرة القومية البريطانية التي أنشئّت في الفقترة 
من عام ١13١‏ حتى عام ١396‏ تتسم من حيث تصميمها وأسلوب جمعها 
أنها أكبر الذخائر حجمًا على مستوى العالم. وقد شاركت الحكومة البريطانية 
ب 660٠‏ من قيمة تمويل إنشاء هذه الذخيرة» وقد تم تطوير هذه الذخيرة 
بالتعاون بين كل من دار نشر جامعة أكسفورد ومجموعة لونجمان ودار نشر 
تشامبرز والمكتبة القومية البريطانية وجامعة أكسفورد وجامعة لانكاستر. وقد 
قدم كل من هذه الهيئات جميع ما لديها من خبرات وإمكانات إدارة ونسشر 
النصوص الإلكترونية وتأليف المعاجم ومجالات تحليل الذخائر اللغوية حتى 
يُمْكن العمل في إطار مشترك من أجل تصميم تلك الذخيرة اللغوية وتطويرها 
وترميزها. ونظر! إلى أن ذخيرة بي إن سي 8710 تشتمل على نصوص 
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تحريرية وأخرى شفهية بالإضافة إلى كبر حجم مادتها اللغوية» الأمر الذي. 
ولد الأمل أن تَصنْبِحَ المصدر القومي الأساسي للاطلاع على المصادر 
الإنجليزية مثلها في ذلك مثل ذخائر إس إي سي ©58: وبراون؛ ولوب 
8 وما قدمته من إسهام في حقل الدراسات اللغؤية المبنية على ذخائر 
لغوية في أثناء عصر الجيل الأول من الذخائر. وقد كان الفكر التصميمي 
لذخيرة بي إن سي 8380 يتمتع بقدر عال من التوازن؛ حيث جمعت الذخيرة 
قطاعًا عريضنا من النصوص التحريرية والشفهية؛ الأمر الذي جعلها المصدر 
الأساسي الأكثر انتشارًا واستخداما في التطبيقات اللغوية التجارية والعلمية 
والتعليمية. تشمل ذخيرة بي إن سي©87 عدد 41754 نصء تمشل اللغة 
التحريرية منها نسبة ,901٠‏ أما اللغة الشفهية فتمثل .90٠١‏ وعلى الرغم من 
أن الجزء الشفهي الذي يصل إلى حوالي ٠١‏ مليون كلمة» يُعْتَبّر في الوققت 
ذاته أكبر نص شفهي يمثل اللغة الإنجليزية حتى الآن» فإن ليتش (6608,آ) قد 
لاحظ عام ١157‏ أن ذخيرة بي إن سي 8810 لم تستطع أن تحقق التوازن 
بين حجم المحتوى التحريري والمحتوى الشفهي في المادة اللغوية الممثلة 
بداخلها. ويقدم المصدر رقما*"! وهو موقع الذخيرة على شبكة المعلومات 
تعريفا عن توزيع المادة اللغوية داخل ذخيرة بي إن سي ©801. 
١ل‏ ذخيرة ©8731 للنصوص التحريرية 

تضم ذخيرة بي إن سي ©8731 للنصوص التحريرية عدد 9.؟8 
نصوصء وكل نص من هذه النصوص يتمتع بالخصائص اللغوية للفئة 
اللغوية التي يندرج تحتها. وعند اختيار المادة اللغوية يتم التحقق من وجود 
ثلاث خصائص هي تاريخ الإصدار ووسيط النشر والمجال الرئيس الذي 
تندرج تحته تلك المادة. 


أ) تاريخ الإصدار 


جدول (" -4): تواريخ إصدار النصوص في لخيرة بي إن جحي 910 


اك نسبة التمثيل 
التاريخ اللخيرة 9 
١90/4-6‏ 
من دون تاريخ 901 


ب) وسيط النشر 


لا يتعدى حجم أي نص في ذخيرة بي إن سي 8710 مهما بلغ حجمه 
عدد 4٠‏ ألف كلمة» والجدول التالي يبين لنا نسبة المصادر التحريرية 


جدول ؟-5: نسب ا الوسائط المختلفة مسن 


5 بن[ تسبة لمن دقل 
الكتب 1 0 

| الجرائد 000 | 

| أوزاق متفرقة (إعلاتات ونشرا ت) 6,5 9 
أوراق متفرقة غير 0 
(مراسلات ومذكرات) - ند لد 

| لغة شفهية مكتوبة في شكل تحريري |[ 45 كك 35 

ج) المجال 


هناك نسبة من النصوص داخل ذخيرة بي إن سي 828/0 تندرج 
تحت بند النصوص الإبداعية» ونشرت جميعًا بعد عام 5 1+ وهتاك لنسية 


9/0 من النصوص تندرج تحت فئة النصوص المعلوماتية نشرت جميعها 
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التي تم جمعها من المجلات الأسبوعية؛ وذلك بسبب أن مصممي الذخيرة قد 
راعوا التأثير الثقافي المستمر للأعمال الأدبية في المجتمع؛ والجدول التالي 


جدول (؟-ئ): نسب توزيع المجالات داخل ذخيرة بي إن سي 


المجال ١‏ عدد النصوص | نسبة التمثيل داخل الذخيرة ‏ 
اللصتوصن الإبداعية 37 لاقرثامة 0 ]| 
| العلوم الطبيعية ك5 7 4 #6 0 ]| 
العلوم التطبيقية 2 00001 
العلوم الاجتماعية 7 مه 9001 
| الشئون الدولية 72 40 0000١‏ 8 
| التجارة والمال 84000" 1 11 9 
القنون 0 9 ا 11 90 
| العقيدة والفكر 4 4 00 أ 
| الترفيه كلام |0 0000 8 


؟ - ذخيرة بي إن سي 870 للنصوص الشفهية 

تضم ذخيرة بي إن سي8710 مواد شفهية تصل إلى ٠١‏ ملايين كلمة: 
وقد أخدّت هذه المادة من مصدرين أساسين: مواد إدارية رسميةاوج»06») 
([223661313 12260 مع وعينات إحصائية. ويصل حجم المواد الإدارية 
الرسمية إلى 1١554754‏ كلمة. أما العينات الإحصائية فيصل حجمها إلى 
هلاه ع 3 
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) النصوص الشفهية المأخوذة من المواد الإدارية الرسمية 
من أجل الوصول إلى تغطية شاملة لأنواع النصوص الشفهية المختلفة 
ضمت المواد الإدارية الرسمية الأنواع التالية: المحاضرات وما يتعلق بها 
من أحداث تتصل بالمعلومات الخاصة بالعملية التعليمية؛ وتسجيلات الفيديو 
واستطلاعات الرأي والاختبارات الشفهية وما شابه ذلك من أنشطة؛ بالإضافة 
إلى النشرات المصورة والخطب الحكومية والمؤتمرات العامة والاجتماعات 
البرلمانية» وغير ذلك من الأعمال الحكومية والعامة؛ كما ضِمّت الذخيرة 
التعليقات الرياضية المُصَوّرة وأنشطة النوادي والأحاديث الإذاعية عبر 
التليفون وغير ذلك من الأنشطة الترفيهية والحوارات. وقد تم جمع هذه 
النصوص الشفهية بصورة منتظمة من عدد ١١‏ منطقة على مستوى 
بريطانيا. 
والجدول التالي يوضح النسب التي يحتلها كل نوع من النصوص داخل 
الذخيرة. 
جدول (؟7-١):‏ توزيع المواد اللغوية الشفهية حسب 
السياق داخل ذخيرة بي إن سي ظ 


نسبة التمثيل داخل 
الذخيرة 


هسوك تفايمية 00001 
شئون.عامة 0/001 
شئون ددارية 5/0 


! مود تزفيهية 5 4,6 907 
من دون تصنيف كن 
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ب) النصوص الشفهية المأخوذة من العينات الإحصائية 

المصدر الثاني للنصوص الشفهية يضم 4 نصًا قدمها عدد من 
المتطوعين» وقد وصل حجم هذه المادة إلى 7٠٠٠١‏ ساعة سُنَجِّلَة تم تحويلها . 
إلى مكافئ كتابي. وتضم الحوارات موضوع تلك التسجيلات جميع مناحي 
الحياة المختلفة» وتم جمعها من عدد 78 منطقة إدارية على مستوى إنجلتراء 
وينتمي هؤلاء (ذكور وإناث) إلى ؛ طبقات اجتماعية مختلفة» وقد وزعت 
المادة متوازية على أشخاص من الذكور والإناث في أعمار تتراوح بين 6٠»؛‏ 
و50 عامًا أو أكثر. وكان كل متطوع أو متطوعة يحمل جهاز تسجيل 
محمولاً على الكتفء. ويقوم بتسجيل حوارات كاملة بين الأشخاص على مدى 
يومين بصورة لا.تلفت الانتباه. ثم يُخطر جميع الأشخاص أنه قد تم تسجيل 
حواراتهم» وإعطائهم سلطة حذف ما يرغبون من محتوى شريط الكاسيت. 
كما تم تسجيل جميع المعلومات الخاصة بمحيط الحديث» وجميع المعلومات 
المتعلقة بالمتحدثين. وتشتمل تلك التفاصيل الخلفية الثقافية للمتحدث؛ 
والحركات التي يقوم بها في أثناء الحديثء بالإضافة إلى مكان الحوار وزمنه 
وتاريخه والمستمعين ودرجة الارتجال وموضوع الحديث ونوع المشاركين 
وأعمارهم وجنسياتهم ووظائفهم ودرجة تعلمهم ودرجاتهم الاجتماعية 
وعلاقتهم بالمتحدث» ودرجة اللغة العامية المستخدمة وغير ذلك. وقد تم 
تحويل النصوص السُّدَجّلّة كافة إلى شكل تحريري كلمة بكلمة. مسع عدم 
إغفال الوقفات» والتردد في أثناء الحديث؛ والأخطاء اللغوية» والتكرار سواء 
على مستوى الصوت أو الكلمة أو غير ذلك. بالإضافة إلى الحديث بصوت 
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عال والتهامس وغير ذلك من الخصائص اللغوية الفائقة. ولم يتم وضع 
ترميز للخصائص الصوتية وتم الاكتفاء بوجود معلومات قليلة عن الإيقاع؛ 
ولذلك يمكن أن تستخدم ذخيرة بي إن سي ©8316 في إجراء ما نحتاج إليه من 
الدراسات الصوتية الدقيقة للغة. 1 


*- الخدمات التي تقدمها ذخيرة بي إن سي 811 

تم تحويل جميع النصوص الموجودة بذخيرة بي إن سي إلى نصوص 
مطابقة للمواصفات القياسية الدولية للنشر الإلكتروني (5673141) أما-المادة 
اللغوية داخل الذخيرة فقد طُبّق عليها نظام الترميز الخاص بالأنواع النحوية 
. للكلمات الذي طورثه جامعة لانكاستر والمعروف باسم 1.4358©. كما تَقَكَمِ 
ذخيرة بي إن سي واجهة برمجية قوية للبحث عن المعلومات والاستعلام 
عنها داخل الذخيرة» وبإمكان تلك الواجهة البرمجية أن تُتَفذ عمليات البحث 
المعقدة والاستعلام داخل متن الذخيرة اللغوية. 
ثامنا: الذخيرة الدولية للغة الإنجليزية 

في عام ١1848‏ طرح جرينباوم (ددهطدء»6) اقتراحًا بإنشاء ذخيرة 
دولية للغة الإنجليزية فائقة الحجم وتطويرهاء وأطلق عليها اسم الذخيرة 
الدولية للغة الإنجليزية (طادناعص1 04 ددام02© [222)1592ء)س1 ©0156 ويطلق 
عليها اختصار! آي سي إي 565. والهدف من تلك الذخيرة هو إجراء 
دراسات مقارنة بين اللغة الإنجليزية في عدد من الدول الناطقة بها. ويشمل 
نطاق المقارنة كلا من المستوى التحريري والشفهي للغة. وتضم الذخيرة 
الدولية للغة الإنجليزية الموجودة حاليًا عدد ٠١‏ ذخيرة فرعية يصل حجم 
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المادة اللغوية في كل منها مليون كلمة. وقد تم اختيار المادة اللغوية فيها 
جميعًا من الأشخاص البالغين الذين تجاوزت أعمارهم ١8‏ عاماء الذين تلقوا 
ا اك الثانوية وما بعدها. وتلك الذخيرة تضم الدول ٠.‏ 
. التي تتحدث تتحدث اللغة الإنجليزية كلغة أولى؛ مثل مثل: إنجلترا وأميركا وكندا والنمسا 
ونيوزيلندا وما إلى ذلك؛ كما تضم الدول التي تَعْتَبّر اللغة الإنجليزية هي 
اللغة الرسمية لها أو لغة الغالبية فيها؛ مثل: الهند ونيجيريا وسنغافورة وغير 
ذلك. وتغطي المادة للغوية التي جُمعت لهذه الذخيرة الفقرة من ١190٠‏ 
1 

وعلى الرغم من أن الغرض من إنشاء الذخيرة الدولية للغة الإنجليزية 
كان إجراء دراسات مقارنة على اللغة الإنجليزية» فإن كل ذخيرة من الذخائر 
الفرعية المكونة لها يمكن الاعتماد عليها بمفردها في عمل دراسات وصفية 
للغة الإنجليزية في كل دولة بمفردها. وقد تمكن الباحثون من خلال هذه 
الذخيرة من اكتشاف بعض أنواع الاختلافات في استخدام اللغة الإنجليزية 
باختلاف الدول» على سبيل المثال التعرف على الدول التي تَستخدم عبارة 
(صمع؟ غمعمع17ق) والدول الأخر ى التي تستخدم (40 56ع41655)» كما يمكن 
ا ا و ال 1 
مثل استخدام أسلوب النفي التوكيدي وغير ذلك. 

كانت أول ذخيرة فرعية تم إنشاؤها في إطار الذخيرة الدولية للغة 
الإنجليزية هي الذخيرة الإنجليزية البريطانية. ومكونات هذه الذخيرة تتنضح 
من خلال الجدول رقم . وبعد ذلك اتبَعَت باقي الذخائر للغوية في الدول 
الأخرى الهيكلية نفسها في بناء 8-١‏ محتوي كل منها. وتحتوي كل ذخيرة 
فرعية في الذخيرة الدولية للغة الإنجليزية 6٠٠‏ عي 
عينة ٠٠٠١‏ كلمة تقريبّاء وتشغل المادة التحريرية نسبة من محتويات 
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الذخيرة» وغالبية المادة الشفهية التي تصل إلى 6٠6‏ نص عبارة عن 
حوارات عامة معلنة. . 


جدول (؟5-7): بنية الذخيرة الدولية للغة الإنجليزية 


مستوى اللغة الشفهية (300 نص) 
حوارت (180) 
حوارات خاصة (100) 
حديث مباشر (90) 
حديث عبر الهاتف (10) 
موضوعات عَلْنِية (80) 
محاضرات (20) 
مناقشات عبر الإذاعة (20) 
أحاديث إذاعية (10) 
مناقشات مجلس الدونة (10) 
مداولات قضائية (10) 
شؤون تجارية (10) 
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إخبارية (علمية) (40) 
أنب (10) 
علوم اجتماعية (10) 
علوم طبيعية (10) . 
تكنولوجيا (10) 
إخبارية (علمة) (40) 
حضارةٌ (10) 
علوم اجتماعية (10) 
العلوم الطبيعية (10) 
نصوص تقنية (10) 
نصوص إخبارية (20) 
تقارير (20) 
التعليم (20) 
نصوص إذارية / تعليم نظامي (10) 
مهارات/ هوليات (10) 
توجيهات  )10(‏ 
افتتاحيات الأخبار (10). 
خيال (20) 
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الفصل الخامس 
بناء الذخائر اللغوية الصينية 


إن الغرض من بناء ذخيرة للغة الصينية يبدأ أساسًا من الحاجة الماسة 
إلى التحليل الإحصائي للغة الصينية. ويشمل التحليل الإحصائي للغة الصينية 
الدراسات القائمة على معدل تكرار الرموز والمفردات الصينية؛ وذلك من 
أجل بناء قوائم الرموز والمفردات شائعة الاستخدام في اللغة الصينية. 
ويتطلب إجراء دراسات إحصائية على اللغة الصينية التعامل مع حقائق لغوية 
هائلة العددء وهذا يعني بناء ذخيرة لغوية ذات حجم مناسب لتلك المهمة. في 
البدايات الأولى للذخائر اللغوية» كان هذا العمل الإحصائي يتم من خلال 
المجهود البشري. في الغربء كان أول معجم لغوي قائم على دراسة . 
إحصائية بالمجهود البشري أَلفَه العالم اللغوي الألماني كايدن (دههءه1)!") 
عام 1898. أما في الصينء فكان أول إحصاء قائم على الاستخدام الحديث 


1١834 فريدريش فيلْهلُم كاين (معلعدو»آ1 ماعطلا طعسلعك) (1918-1445): قثم في عام‎ )١( 
بالتعاون مع ثمانمائة شخص دراسة إحصائية يدوية على ذخيرة تحريرية كبيرة الحجم من أربعة عشر‎ 
مصدر! للجرائد والمجلات؛ وبمساعدة عدد خمسة آلاف ناسخ اسخ سريع على الآلة الكاتبة» وقد استغرق هذا‎ 
و ا ع اكول رد جا واد مي‎ 0 
عليها في تأليف أول معجم تكراري للكلمات على مستوى العالم وهو ((المعجم التكراري لمات في‎ 
اللغة الألمانية))» وقد اعتبر هذا العمل أول دراسة بحثية على الكلمات باستخدام الأسلوب الإحصائي‎ 
بمفهومه الحديث. (المترجم)‎ 
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للغة الصينية أجراه العالم التربوي تشن خه تشين في عام !*!١574‏ بطريقة 
يدوية مع أربعة من مساعديهء وقد استغرق هذا العمل منهم ما بين عامين 
إلى ثلاثة أعوام؛ وقد استعانوا في ذلك بذخيرة لغوية مكونة مسن 50445/8ه 
رمز صينيء» تندرج تحت ستة أنماط من النصوص. وقد أظهرت نتائج 
الإحصاء أن الرموز الصينية التي تكررت داخل هذه الذخيرة يصل عددها 
إلى 475١‏ رمزاء ومن بين هذه الرموز كان هناك أكثر من 5ه رمزا 
تكرر أكثر من ثلاشمائة مرة: و57١١‏ رمزا! تكرر أكثر من مائة مرة. وما 
زالت الأرقام الإحصائية التي توصّل إليها السيد تشن خه تشن ذات موثوقية 
علمية كبيرة حتى الآن. ومع حلول سبعينيات القرن العشرينء اسستعانت 
الصين بالجهود البشرية في إتمام عملية إحصاء لمعدلات تكرار الرموز 
الصينية في ذخيرة لغوية كبيرة الحجم تصل إلى أكثر من ملياري رمز 
صينيء وهذا ما اشتهر باسم 'المشروع رقم 57/48. ش 

ويُعْتبّر التغلب على إشكاليات إدخال الرموز الصينية إلى الحاسب 
الآلي بمثابة وضع حجر الأساس بصورة ملموسة أمام أبحاث الذخائر اللغوية 
الرقمية باللغة الصينية. فمع نهاية سبعينيات القرن العشرين؛ أنشأت الصين 
على التوالي عددا من الذخائر اللغوية الرقمية كبيرة الحجم التي تستتخدم 
منهجيات التحليل الكمي للغة الصينية» ويُعْتَبر نشر (المعجم الإحصائي لمعدل 
تكرار الرموز الصينية)؛ و(معجم الرموز الأكثر شيوعًا في اللغة الصينية) 
وغيرهما من المعاجم من أهم النتائج العلمية لهذه الفترة. ومع حلول ثمانينيات 
القرن العشرين؛ استعان العاملون في مجال معالجة المعلومات باللغة الصينية 
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بالذخائر اللغوية بصورة أساسية لعمل تمييز آلي لحدود الكلمات داخل 
النصوص الصيينة» وكان ذلك بمثابة المشروع الأساسي لبناء أنظمة الترجمة 
الآلية» والفهم الآلي للكلام» وغير ذلك من التطبيقات القائمة على معالجة 
المعلومات باللغة الصينية. وبحلول تسعينيات القرن العشرين» وتمشيًا مع 
الارتفاع المتزايد لقدرة الحاسب الآلي على تخزين المعلومات ومعالجتهاء 
زادت أيضنًا القدرة على معالجة الرموز الصينية. ففي البداية» كانت الذخائر 
اللغوية الصينية يتم بناؤها لأغراض ومهام بحثية محددةء مشل عمل 
إحصاءات عن معدلات تكرار الرموز والمفردات الصينية» وهذا يختلف عن 
وظائف الذخائر اللغوية الحديثة التي يكون لها استخدامات واسعة النطاق» 
التي لا تقتصر فقط على عمل الدراسات اللغوية» بل تمتد إلى عمل دراسات 
معالجة اللغات الطبيعية وما إلى ذلك. ويُعَرٌكُنا الفصل الحالي من الكتاب بعدد 
من الذخائر اللغوية القياسية للغة الصينية الحديثة. 
أولاً: الذخائر المخصصة لإحصاء معدل تكرار الكلمات في اللغة الصينية 
١‏ - مشروع الذخيرة اللغوية العامة بجامعة اللغات والثقافة ببكين 

لقد نتج عن هذا المشروع (معجم معدل تكرار الكلمات في اللغة 
الصينية الحديثة). ومن أجل تأليف هذا المعجما'*ا قام مركز الأبحاث اللغوية 
بجامعة اللغات والثقافة ببكين بإنشاء ذخيرة اغوية واللغة الصيئية السديفنة 
تصل إلى مليوني رمز صيني. وفيما يلي نستعرض تفاصيل مهمَّة بناء هذه 
الذخيرة: استخدام مختلف المواد اللغوية في مختلف الموضوعات لبناء 
الذخيرة» واستخدام أسلوب العمل اليدوي في عمل تمييز لحدود الكلمات» ثم 
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الاستعانة بالحاسب الآلي في إنهاء مَهُمّةَ إحصاء معدلات تكرار الرموز 
والمفردات الصينية داخل الذخيرة. وقد أتاح هذا المشروع إمكانية عمل 
دراسة استطلاعية شاملة عن الاستخدام الواقعي للرموز والمفردات الصينية 
في اللغة الصينية الجديثة» وقدّم دراسة إحصائية وتحليلية لنظفروف توزيع 
المفردات الصينية في مختلف النصوص بالإضافة إلى معدلات التكرار 
5207 الاستخدام» فضلاً عن عمل مقارنة بين القيم التي تمت مشاهدتها وبين 
القيم المتوقعة؛ كما تم إحصاء معدلات ظهور الرموز الصينية في النتصوص 
وتحليلهاء ومقارنة قدرتها على تكوين الكلمات من خلال موقع كل منها داخل 
الكلمة. وكان الهدف من المشروع عرض ملامح استخدام الرموز والمفردات 
الصينية من خلال دراسات إحصائية:» والتمييز بين درجات الاستخدام الأكثر 
شيوعًا لكل من الرموز والمفردات الصينية» وبعد إجراء اختيارات عشوائية 
لمعدلات التغطية؛ تم عمل تقييم لكامل النتائج التي تم التوصل إليهاء وفي 
النهاية عرضصت قوائم المفردات والرموز النهائية وفقا للشروط الموضوعة 
سابقا مرفقا بها المعلومات الإحصائية الخاصة بها. 

ويقدم المرجع رقم 21! شرحًا تفصيليًا للأعمال التي قام بها فريق بناء 
لك الذخيرة اللغوية. 

أ) تحديد قواعد اختيار العينات اللغوية 


في أثناء بناء الذخيرة اللغوية» استرشد مصممو الذخيرة بحدود اختيار 
المادة اللغوية في الذخائر السابقة» مع مراعاة مدى شيوع الاستخدام داخل 
المح وفي النهاية تم الا ستقرار على أن يكون اختيار المادة اللغوية من 
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الجرائد والمناقشات السياسية»: والمؤلفات العلمية»؛ والحؤارات اليومية: 
والمؤلفات الأدبية» وما إلى ذلك. وفي الوقت ذاته؛ تم التطرق إلى الاستعانة 
بنماذج من النصوص اللغوية في المرحلتين الابتدائية والإعدادية؛ بحيث تتمتع 
تلك النصوص بأسلوب لغوي قياسيء بالإضافة إلى مراعاة التدرج في 
المعلومات اللغوية والثقافية لمضمونها؛ ولذلك تم اعتماد النصوص اللغوية 
المعتّمّدة من قبّل الحكومة الصينية في الفترة ما بين ١940-١517‏ كمواد 
دراسية للمرحلتين الابتدائية والإعدادية. ويتمثل توزيع المواد اللغوية التي تم 
انتقاؤها للذخيرة المذكورة كما يلي: 

المجموعة أ: سياسة» واقتصادء وفلسفة» وقانون» وتاريخ» وجغرافياء 
وشئون عسكرية وما إلى ذلك من المقالات الصحفية والمؤلفات التي تعكدس 
ملامح الحياة في المجتمع الصيني الحديثء بما يزيد عن 44٠‏ ألف رمز 
صيني وما يمثل نسبة 9074,4 من إجمالي حجم الذخيرة. 

المجموعة ب: معارف علمية؛ تم اختيارها من المستوى المتوسط لعلم 
الرياضيات؛ والأحياء» والطبء والهندسة» والتكنولوجياء وعلوم الطيران 
والملاحةء والفضاءء وتاريخ العلوم؛ والسيرة الذاتية للعلماء» بالإضافة إلى 
مقاقات كلنية تصلق" بالملذين والماكل .والحياة قينا صل إلى مائتين بوصتعين 
ألف رمز صينيء وتشغل نسبة 90١5,8‏ من حجم الذخيرة. 

المجموعة ج: مواد شفهية حول مواقف للحياة اليومية؛ حيث تم اختيار 
أعمال مسرحية شهيرة تعكس مختلف جوانب الحياة (أعمال لكل من قوه مو 
روه» ولاو شه»ء وتيان خان» وتساو يوء وو تزي جوانغ)» بالإضافة إلى 


139 


حوارات كوميدية وحكايات قصصية وما إلى ذلك. هذا بالإضاقة إلى التطرق. 
إلى احتياجات الحياة اليومية من التعامل الشفهي اليومي؛ وقد تم الحصول 
على جزء من الذخيرة الشفهية عن طريق التسجيل في موضوعات محددة 
والتسجيل في موضوعات عشوائية لمادة شفهية. وقد وصل مجموع المادة 
اللغوية التي تم جمعها إلى ما يقرب من مائتي ألف رمز تحتل نسبة 96٠١,5‏ 
من حجم الذخيرة. 

المجموعة د: روايات» وقصص قصيرة: وأعمال نثرية» وقصص أطفال 
تصل إلى ما يقرب من 85٠0‏ ألف رمز صينيء تحتل نسبة 96448,7 من إجمالي 
حجم الذخيرة. وعند اختيار الأعمال الأدبية تمت مراعاة القواعد التالية: 

-١‏ التركيز على أن تكون الأولوية في الاختيار للأعمال الأدبية 
الصينية المتميزة منذ حركة الرابع من مايوء يلي ذلك الأعمال 
الأدبية التي تمثل الاستخدام اللغوي الجيدء مع تغطية معظم التيارات 
والأساليب اللغوية. 

-١‏ الإكثار من اختيار الأعمال الأدبية التي تنتمي إلى الفترة ما بين 
أربعينيات إلى سبعينيات القرن العشرين. وبالنسبة إلى الموضوعات 
فقد تم التركيز على أن يتطرق الاختيار إلى معظم موضوعات 
الكتابة الأدبية (الحربء والبناء» والمصانعء والقرية:ء والمدينة؛: 

. والطبقات الاجتماعية؛ والأقليات القومية» والشخصيات التاريخية»: 
ومختلف جوانب الحياة)ء وقد حاول فريق العمل أن يحقق التوازن 
بين حجم المادة اللغوية في جميع المجالات. 
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- الاحتفاظ بتكامل النسخة الأصلية للعمل الأدبي؛ خيث رُوعي أن 
تحتوي الذخيرة نصوصا قصيرة كاملة في إطار عشرة آلاف رمز 
صينيء أما غالبية الأعمال الأدبية الأخرى فقد روعي اختيار أجزاء 
كاملة منها بالإضافة إلى مراعاة أن تكون تلك الأجزاء مُمَنلَة 
للعمل الأدبي. 
وبالنسبة إلى مجمل المادة اللغوية» فقد كان الاهتمام بأن يتم اختيار 
المادة بأسلوب العينات المتساوية في الحجم فيما يتعلق بالأعمال التي تتناول 
المناقكشات السياسية والمؤلفات العلمية؛ وذلك من أجل أن تكون المفردات 
ذات تغطية شاملة وموضوعية. أما فيما يتعلق بالأعمال المسرحيةء فقد اهتم 
مصممو الذخيرة بعمل الإحصاء على مشاهد كاملة من المسرحيات؛ حيث. 
اقتصر الأمر على الحوار المسرحي والحوارات الداخلية للشخوص 
المسرحية» ولم يتم إدراج وصف المشاهد وغيرها من المواقف السرزدية داخل 
العمل المسرحي في عملية الإحصاء. أما فيما يتعلق بدروس الأدب واللغة في 
المرحلتين الابتدائية والإعدادية» فبالإضافة إلى النصوص الكاملة من اللغة 
الكلاسيكية؛ والشعرء والأعمال المترجمة عن اللغات الأجنبية» فقد تم عمل 
إحصاء بمعدل بَكرار الرموز والمفردات داخل الأعمال بكاملها. مجمل 
القول: إن مصممي الذخيرة كانوا على قناعة أن أفضل قاعدة لاختيار عينات 
النصوص داخل الذخيرة هي مراعاة نسبة التمثيل وتعدد التخصصات. 
والتجانس» مع الاهتمام بالتعامل مع مشكلة الحجهم الكلي للذخيرة 
بأسلوب علمي. 
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فحجم الذخيرة إذا كان صغيرًا جذاء لن تتمكن الذخيرة من التعبير عن 
المشكلة محل الدراسة: أما إذا كان الحجم كبيرًا فعلى الرغم من ارتفاع درجة 
دقة النتائج الإحصائية» فإن الفائض اللغوي في تلك الحالة سيكون كييرًا جذّاء 
فضلاً عن التكلفة الاقتصادية العالية. وقد راعى مؤلفو (معجم معدل تكرار 
الكلمات في اللغة الصينية الحديثة) مقدار التكامل بين هذين العنصرين 
بصورة كبيرة في عملية اختيار المادة اللغوية وتحديد نطاقها. 

ب النتائج البحثية لتلك الذخائر اللغوية 

تختلف اللغة الصينية عن غيرها من اللغات الأجنبية التي تعتمد على 
الأبجدية الكتابية؛ حيث تفتقر اللغة الصينية إلى العلامات الصرفية التي تَعَبّر 
عن نوع الكلمة» بالإضافة إلى عدم وجود علامات فاصلة بين الكلمات 
بعضها البعضء الأمر الذي يُمَثْلَ عائقًا كبيرًا أمام عملية إحصاء المفردات 
الصينية داخل الذخائر اللغوية. ولذلك فعند عمل معالجة آلية للغة الصينية 
الطبيعية تكون البداية بعمل تمييز لحدود الكلمات داخل الذخائر الصينية. وفي 
تلك الفترة كانت جميع الدراسات العلمية التي تسعى إلى تصميم برمجيات 
للتمبيز الآلي لحدود المفردات الصينية تستخدم منهجيات مختلفة» ولن يتم 
تجربة تلك البرمجيات بصورة عملية على الواقع اللغوي؛ ولا يمكن القول: 
إن هذه التجارب قد خرجت من إطار النظرية إلى حيز التطبيق» ولا يمكن 
الادعاء أن مشكلة التمييز الآلي للمفردات الصينية قد تم حلها بصورة كاملة» 
فما زال هناك نقاط عديدة في تلك البرمجيات تحتاج إلى تعديل وتحسين في 
الأداء. إن مشروع إنشاء هذه الذخيرة اللغوية الذي بدأ عام 19179 قد تم في 
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. ظل تلك الظروف. وفي ذلك الوقت تم الاستعانة بالعنصر البشري في إتمام 
عملية تمييز حدود المفردات الصينية» بالإضافة إلى وضع رموز خاصة 
تُحَدد خصائص كل عينة لغوية» وفي النهاية تم الاستعانة بإمكانات الحاسب 
الآلي في إنهاء عمليات التوثيق» والإحصاءء والتحليل» والتجميع وما إلى ذلك 


أولاً: المهام الإحصائية على مستوى. المفردات في اللغة الصينية الحديئة 
تشمل ما يلي: 


أ- تصنيف المفردات وتجميعهاء ورصد عدد مرات تواتر المفردات» 
والعدد الإجمالي لأنواعهاء والعدد التراكمي لهاء وحساب معدل ' 
التكرار النسبي والتراكمي للمفردات. 

ب- حساب معامل انتشار كل نوع من أنواع المفردات الصينية داخل 
الذخيرة» ومؤشرات الاستخدام. 

ج- تحديد درجات الاستخدام لكل المفردات وفقا لمعدلات تكرارها 
داخل النصوص الصينية» وحساب متوسط طول المفردات الصينية 1 
مع تحديد عدد أنواع الكلمات المتواجدة في كل درجة وطرق 
توزيعها داخل كل طول من أطوال الكلمات. 

د- حساب أعلى قيمة مشاهدة وأعلى قيمة مُحْتَمَلة داخل الكلمات ذات 
معدل التكرار الأعلى. 
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ىو 


ه- إظهار نسب تواجد المفردات أحادية المقطع الصوتيء وثنائية 
وثلاثية ورباعية المقطع وما هو أكثر من ذلك داخل النصوص 
الصينية. 


و- وضع قائمة بترتيب المفردات حسب درجة تكرارها. 

ز- وضع قائمة بترتيب المفردات حسب درجات الاستخدام. 

ح- وضع قائمة للمفردات ذات معدل التكرار الأقل؛ مشل المفردات 
التي تكررت أقل من خمس مراتء وأقل من عشر مرات. 


: المهام الإحصائية على مستوى الرموز الصينية تشمل ما يلي: 


أ- إظهار العدد الإجمالي لأنماط الرموز الصينية» وتوليد فهرس 
إجمالي للرموز الصينية. 

ب- إحصاء عدد مرات تكرار الرموز الصينية في كل نمط من 
الأنماطء وحساب معدل التكرار النسبي ومعدل التكرار التراكمي 

ج- إحصاء عدد مرات اشتراك كل نمط من الرموز الصينية في 
تكوين المفردات» والمواقع المختلفة التي يحتلها داخل الكلمة (بداية 
الكلمةء ووسط الكلمةء وذيل الكلمة) 

د- وضع قائمة للرموز الصينية حسب معدلات تكرارهاء ووضع قائمة 
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؟ - الذخيرة اللغوية التي أنشأتها جامعة الطيران الصينية بالتعاون مع عدد 
من الجامعات 

في التاسع عشر من شهر نوفمبر عام »148١‏ كلقت أكاديمية البحصث 
العلمي الصينية هيئة التوحيد القياسي بِمَهمّة عمل "إحصاء عدد مرات تكرار 
المفردات في اللغة الصينية الحديثة"؛ وقد تولت جامعة الطيران الصينية 
رئاسة هذا المشروع بمساعدة كل من جامعة الشعب الصينية» وجامعة بكين؛ 
وجامعة وو خان وغيرها من عشر جامعات صينية أخرى. وقد تم الانتهاء 
من هذه المهمة عام »١3487‏ وفي الثلاثين من يونيه عام ١145‏ حصل 
مشروع "إحصاء عدد مرات تكرار المفردات في اللغة الصينية الحديثة" على 
تمويل من الحكومة الصينية. وفيما يلي تعريف بالأعمال التي تم إنجازها من 
خلال المشروع 420. 

أ) مكونات الذخيرة 

تنحصر حدود المادة اللغوية التي تم اختيارها لمشروع إحصاء معدل 
تكرار المفردات في اللغة الصينية الحديثة في المطبوعات الرسمية في الفترة 
ما بين 919١-19875ء‏ وقد تم تقسيم تلك الفترة إلى أربع فترات زمنية 
فرعيةء الفترة الأولى (515١-553١)ء‏ والفترة الثانية (0٠96١11156-1١)؛‏ 
والفترة الثالثة (5575١375-1١)ء؛‏ والفترة الرابعة .)١1187-1١51/1(‏ وفي كل 
فترة من الفترات سالفة الذكرء تم جمع المادة اللغوية من خلال فرعين لغويين 
أساسيين هما فرع العلوم الاجتماعية وفرع العلوم الطبيعية؛ وكل فرع من 
تلك الأفرع الرئيسة تم تقسيمه إلى خمسة تخصصات فرعية. وللتعرف على 
مزيد من المعلومات حول صُدَمّيّات تلك التخصصات انظر الجدول رقم 1-5. 
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جدول (؟1-7): توزيع المادة اللغوية بمشروع الذخيرة 
اللغوية لجامعة الطيران ببكين ش 


الحياة المدنية (الأزياء» والطهوء والسياحة» وجمع 
| طوابع البريد.. إلخ) 
؟ | التاريخ والفلسفة (علم النفس» وعلم التربية» وعلم 
الجمال» وعلم الاجتماع.. إلخ) 
*' | السياسة والاقتصاد (التجارة؛ والمال؛ والإحصاءء 
7 


الأخبار والتقارير (التقارير العمكرية الصادرة عن 


١١ 


١ 


لمكت ييل 


العلوم الاجتما 


لفها 

5 

عدة 
2 


يت ايك 


١1 


الصناعات الخفيفة (الإلكترو كباشير الصناعات 
الكيماوية لمستلزمات الحياة اليومية» والبلاستيك؛ 
والأطعمة» والنسيج.. إلخ) 

الصناعات الثقيلة (المناجم» والتعدين» وصناعة 
الماكينات» والطاقة.. إلخ) 


المعارف والعلوم الأساسية (الرياضياتء والفيزياء» له 
والكيمياء» والأحياء» والفلك» والجغرافياء إلخ 


. وقد تم الحصول على المواد اللغوية من المصادر التالية: 


١ 5 


العلوم | 


0 


0 


5 


١ ١ كمه “اا‎ 
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أ- الجرائد والمجلات. 

ب- المقررات الدراسية. 

ج- المؤلفات. 

د- المطالعات العامة (بما في ذلك المؤلفات في العلوم الأساسية). 

ولا تتضمن المواد اللغوية السابقة الأعمال المُترجمة؛ حيث إن هذه 
الأعمال تُرَكز على إنتاج الكُتّاب المشهورينء بالإضافة إلى المؤلفات 
النموذجية في اللغات الأخرىء كما أن عدد المؤلفات في العلوم الطبيعية كان 
منعدمًا في خلال الفترة الأولى (915١153-1١)؛‏ وذلك لعدم إمكانية العثور 
على مؤلفات في العلوم الطبيعية في تلك الفترة باللغة الصينية. ٠‏ 

وقد وصل حجم المادة اللغوية التي تم جمعها لمشروع معدل تكرار 
المفردات في اللغة الصينية الحديثة ثلاثمائة مليون رمز صينيء وقد تم اختيار 
المادة اللغوية من خلال عدة أساليب لجمع العينات» كالعينات العشوائية والعينات 
المنتظمة (مثل عينات الفترة- والعينات الطبقية) وقد وصل الحجم الإجمالي 
للعينات المختارة إلى ما يقرب من 75 مليون رمز صيني. 

ب) استخدامات الذخيرة 

بعد بناء الذخيرة» قام فريق العمل بتنفيذ الأعمال التالية: 

-١‏ تقسيم المواد اللغوية في الفترة ما بين ١519‏ و187١‏ إلى أربع 

فترات» كل فترة تضم مواد تمثل العلوم الاجتماعية» وأخرى للعلوم 
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تم عمل إحصاء للمفردات على كل قسم من تلك الأقسام بمفردهاء 
الترقيم الصينية التي تصل إلى أربع عشرة علامة. 

؟- استخدام برمجية التمييز الآلي لحدود المفردات الصينية المعروفة 
باسم 2185© للمرة الأولى. 

'- تصميم برمجية حاسوبية متكاملة وإطلاقها لعمل الإحصاء اللغوي 
للكلمات في اللغة الصينية الحديثة. 

4 - تأليف معجم إلكتروني يتكون من 1١١51‏ مادة لغوية. 

5- بناء بنك معلومات عن الرموز الصينية يحتوي 57 خاصية من 

5- طباعة إحصاء عام عن معدلات تكرار المفردات في الفترات 
الزمنية الأربع 555-65 و.56١-205556و555١1-‏ 
كلاك, ولا/ا1 1985-19 بالإضافة إلى إحصاء عام عن معدلات 
تكرار المفردات الصينية على مستوى الغلوم الاجتماعية والعلوم 
الأولى حسب الترتيب الأبجدي لنطق الرموز الصينية» والثانية 
حسب معدل التكرار داخل الذخيرة. وقد وصل حجم المخرجات 
الورقية إلى عشرة ألاف صفحة. 

وتَميّز هذا المشروع في ذلك الوقت بالخصائص التالية: 
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أ- تم النظر إليه باعتباره المشروع الإحصائي ذي النطاق الأوسع.في 
ذلك الوقت لإحصاء معدل تكرار المفردات الصينية؛ وذلك على 
مستوى الحجم وسعة انتشار المادة اللغوية على مدى زمني طويل 
وشمولية التخصصات التي جُمعت على أساسها المادة اللغوية. 

ب- تجائس التوزيع الكمي للعينات» وضآلة التأثر بالخلفية الاجتماعية 
للنصوصء بالإضافة إلى دقة النتائج الإحصائية. 

ج- لأول مرة يتم عمل تمييز آلي لحدود المفردات في اللغة الصينية 
الحديثة على مستوى الصين. 

د- لأول مرة يتم استخدام الأكواد المختلطة لضغط الرموز والكلمات 
الصينية الأمر الذي أتاح إمكانية تمييز الرموز الصينية متعددة 
النطقء الأمر الذي جعل نتيجة الإحصاء أكثر دقة. 


كم إنشاء الذخيرتين السابقتين على وجه الخصوص لعمل إحصاء كمي 


باستخدام المفردات والرموز الصينية. إلا أنه للشسف لم تستمر عملية 
الاستفادة منهما في أعمال أخرى؛ بسبب عدم توحيد معايير التكويد الخاصة 


٠# صم‎ 


بالرموز فيهماء الأمر الذي جعل الاستفادة من هاتين الذخيرتين تتوقف عند 
حد مَهَمَّة الإحصاء اللغوي» وعدم استمرارية العمل بهما فيما بعد. وبذلك 
نكون قد عرضنا في النقطتين السابقتين أشهر ذخيرتين لغويتين للاستخدام 
العام في اللغة الصينية. 
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ثانيًا: الذخيرة المتوازنة لمعهد الدراسات المركزي بتايوان 

الذخيرة المتوازنة لمعهد الدراسات المركزي بتايوان (يطلق عليها 
اختصارًا ذخير ة معهد دراسات تايوان المعروفة باسم كنسم:0© مع 1م51) وهي 
أول ذخيرة صينية متوازنة تحتوي ترميز! للأنواع النحوية للمفردات الصينية 
على مستوى العالم. وكان الهدف العام من تلك الذخيرة هو بناء ذخيرة 
متوازنة للغة الصينية تتكون من خمسة ملايين رمز صيني. 
-١‏ الفكرة من وراء بناء ذخيرة معهد الدراسات المركزي بتايوان 

سعى فريق العمل المُكلف ببناء ذخيرة معهد الدراسات المركزي 
بتايوان إلى جمع المادة اللغوية للذخيرة منذ عام ١53٠‏ ( 4 م115 
02 وقد تم جمع نصوص صينية حديثة فيما يقرب من عشرة 
ملايين رمزء ونصوص صينية كلاسيكية تزيد عن مليون رمز ( © 28هن151 
145114 ونظرًا إلى الكفاءة التي يتمتع بها الفريق في معالجة المواد 
اللغوية الصينية؛ بالإضافة إلى خبرتهم في معالجة الذخائر اللغوية الإلكترونية 
كبيرة الحجم (16.3.0568:1996)؛ فقد تمتع الفريق بعناصر قوة حقيقية» وضم 
كفاءات بشرية مكنته من الاضطلاع بِمَهمّة بناء ذخيرة متوازنة للغة الصينية. 
وقد استهدف فريق البحث في البداية بناء ذخيرة لغوية حجمها مليوني رمز 
صينيء ثم سعى إلى تحقيق المستهدف النهائي وهو الوصول بحجم الذخيرة 
إلى خمسة ملايين رمز بعد عدة سنوات» ومن ثم الاقتراب من نطاق الذخائر 
اللغوية العامة التي نَبْنَى في حقل اللغويات الحاسوبية. وتظهر الفكرة من 
وراء بناء هذه الذخيرة اللغوية من خلال النقاط الثلاث التالية: 
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أ) الالتزام بالمعايير القياسية لجمعية اللغويات الحاسوبية بتايوان في 
تمييز حدود الكلمات الصينية ٠‏ 
إن تمييز حدود الكلمات الصينية من الشروط الأساسية التي تبدأ بها 
عملية معالجة اللغات الطبيعية باللغة الصينية. ولكن نظرًا إلى عدم وجود 
مسافات فاصلة بين حدودى المفردات بعضها البعض في المؤلفات التحريرية 
الصينية؛ بالإضافة إلى وجود خلافات حول تلك الحدود الفاصلة والمحَدّدة 
للمفردات في اللغة الصينية من حيث وضع تعريف واضح وموحد لحدود 
الكلمة في اللغة الصينية» فقد تم الاتفاق بين أعضاء فريق بناء الذخيرة على 
اتباع مقاييس مَجْمّع اللغة الصينية بتايوان في تحديد قواع د تمييز حدود 
الكلمات الصينية. وهذا القرار ليس من شأنه فقط تشجيع المشاركة العامة في 
المادة اللغوية المُكوتة للذخيرة» بل من شأنه أيضًا تسهيل الحصول على تغذية 
راجعة مستمرة من مستخدمي الذخيرة عن آرائهم في الطريقة المُتَبْعة في 
تقسيم المفردات داخل الذخيرة؛ الأمر الذي ينتج عنه مرجعية مُهمة لتصحيح 
مسار تمييز حدود الكلمات الصينية داخل النصوص فيما بعد. 
ب) عند اختيار العينات للذخيرة تم اعتماد وحدة الاختيار لتكون اكتمال 
الفقرات بشكل طبيعيء وليس طول النصوص. 
فقد كان أحد المعايير المتبَعة داخل ذخيرة براون هو السعي إلى 
تحقيق التوازن في توزيع المادة اللغوية على التخصصات المختلفة» وقد أدى 
ذلك إلى اعتماد طول مولمّد لاختيار العينات العشوائية في الذخيرة؛ بحيث 


يكون.طول كل نص ٠6٠‏ كلمة. وقد رأى فريق العمل في ذخيرة معهد 
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الدراسات المركزي بتايوان أن اتباع تلك الطريقة من شأنه أن يتسبب في 
عدم اكتمال المضمون اللغوي للعينات. وبالإضافة إلى ذلك» فإن طول النص 
دائمًا ما يعبر عن إحدى الخصائص المهمة في النصء فإذا تم اختيار 
النتصوص على اعتبار طول مُوَخّد من حيث عدد الكلمات؛ فإن ذلك يُفَقَدُها 
هذه الخاصية. ولذلك: فعلى الرغم من أن ذخيرة معهد الدراسات المركزي 
بتايوان قد تجنبت اختيار النصوص الطويلة جدًا والنصوص القصيرة جذاء 
فإنها لجأت بعد تحديد النص إلى معيار أخذ العينات وفقًا للحدود الطبيعية 
للفقرات. فقد كانوا يعتقدون أن هذا التصرف بُمكثهم من الحصول على 
تشيزسن ذلك متعلومات لغوية يتكاملة: 

ج) استخدام عدة مستويات لتمييز حدود الكلمات في المادة اللغوية 

نظر! إلى تعدد العوامل التي تؤثر في ملامح اللغة بصفة عامة»ء فإن 
النظر إلى اللغة من خلال خاصية معينة مثل الموضوع وأسلوب الكتابة في 
تحديد الذخيرة المتوازنة يُْتَبّر أمرًا غير كاف. ورغبة في التغلب على 
النظرة السطلحية في ترصيف للمادة افلغوية:: فد لجا فريق يتاء الدهيرة إلى 
خمسة معايير مختلفة يتم النظر إلى العينات من خلالها هي: أسلوب الكتابة» 
والفكرة؛ والبناء اللغويء والعنوان» ووسيط النشر. وعلى الرغم من أن فريق 
العمل قد لجأ إلى أن يكون العنوان هو المعيار الأساس في تحقيق التوازن في 
الذخيرة: فإنهم كانوا يأملون بعد تحقيق عدد من النتائج» في إمكانية استخدام 
. أكثر من معيار لتحسين مستوى التوازن في ذخيرتهم: على أن يكون ذلك في 
مرحلة لاحقة من العمل. وهناك فائدة أخرى من هذا الأسلوبء ألا وهي 
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. تسهيل العمل في بناء الذخيرة. وذلك على أساس أن الباحثين الذين 
سيستخدمون الذخيرة فيما بعد بإمكانهم اختيار مجموعة من المعايير يتم العمل 
على أساسها في توليد ذخائر فرعية خاصة بهمء كما يمكنهم عمل دراسات 
مقارنة على تلك الذخائر الفرعية. 
؟ - تصنيف المادة اللغوية وطرق اختيار النصوص في الذخيرة المتوازنة 

من أجل التوصل إلى إدارة متميزة في عملية اختيار المادة اللغوية 
بصورة متوازنة» أرققت مع كل وحدة لغوية علامات خاصة توضح أسلوب 
الكتابة» والفكرةء والبناء اللغويء والعنوان» ووسيط النشرء بالإضافة إلى اسم 
المؤلف؛ ونوعه؛: وجنسيته؛ ودار النشرء وما إلى ذلك من خصائص. 

أ) تحديد خصائص النصوص 

بعد الاطلاع على الخبرات السابقة في إدارة كل من ذخيرة لوب» 
وبراون» وكوبويلدء فقد تم الاستعانة بالمبادئ المتبعة في تصنيف الكتبء وقد 
حدذ. كوزق التفمن أقائفة من :تعاب اتضن :كلل أنانيها سكنت القننين للسصبينية: 
وهذه الخصائص يتم الاستعانة بها في توضيح مصدر المادة اللغوية» وأسلوب 
الكتابة» والمضمون الذي تدور حوله المادة اللغوية وغير ذلكء فالعنوان يُعَبْر 
عن مضمون النصء وتصنيفه؛ أما أسلوب الكتابة فيوضح طريقة التعبير عن 
النص. بالإضافة إلى وضع علامات خاصة توضح ثلاثة مستويات معلوماتية 
هي وسيط النشرء والمؤلف,؛ ودار النشر. فوسيط النشرء يُوَضّح من خلال 
تحديد مصدر المادة اللغوية. والمعلومات الخاصة بالمؤلف توضّح من خلال 
كتابة اسم المؤلف» ونوعهء وجنسيته؛ ولغته الأم. ودار النشر توضتّح من 
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خلال تسجيل المغلومات الخاصة بالطباعة كاسم دار النشرء وتاريخ النشرء 
وعدد الطبعات. 

ب) الموضوع 
استخدم فريق إنشاء الذخيرة منهجية تضنيف الكتب في علم المكتبات كأساس 
لتحديد خصائص الموضوعات. 

أنواع النصوص يُقَصد بها أسلوب كتابة النص؛ حيث تنقسم النتصوص 
إلى تقاريرء ومناقشاتء: وإعلانات» ومراسلاتء ومكاتبات رسمية» وقصصء 
وأساطير» ونثرء ومذكرات» وسيرة ذاتية» وشعرء وسجلاتء. وكتالوجات» 
ومسرحيات» وحوارات» وخطب» وسجلات المؤتمرات. وقد استعان 
المصممون بالنصوص الاستشهادية التي ترد على هوامش المجلات والجرائد 
المستخدمة ولكن بنسبة ضدئيلة جدًا. أما المراسلات فقد كانت من ثلائة 
مصادر مخلفة: مراسلات القراء للجرائد والمجلات» ونماذج المراسلات 
المرفقة في المقررات الدراسبية العلمية:؛ والمراسلات الإلكترونية. أما 
النصوص المسرحية فمصدرها جميعًا من دروس مرحلة التعليم الابتدائنية» 
وجميعها من النصوص النثرية وموضوعاتها في إطار أدب الأطفال؛ والشكل 
اللغوي لها عبارة عن لغة شفهية مدونة. أما الخطب فتضم مسودات الخطب 
حول المبادئ الثلاث للديمقراطية» بالإضافة إلى بعض الخطب التي تحولت 
إلى كتب .أو المنشورة في المجلات. 7 


د) وسيط النشر 


وسيط النشر يتم تقسيمه حسب مصدر المادة اللغوية إلى وسيطين 
مختلفين هما: الوسيط التحريري والوسيط الشفهي. فالوسيط التحريري للمادة 
اللغوية ينكن تشبينه إلى: :ذؤزيات) وكتبء ومرا ساك ووسائط مرئية 
وسمعية؛ ومؤتمرات» ومتفرقات؛ وتضم الوسائط المرئية والسمعية الحوارات 
التي تستخدم في البرامج التليفزيونية بين سيدتين» بالإضافة إلى النصوص 
المستخدمة في النسخة الإلكترونية من المستندات الحكومية. وقد ساعد هذا “ 
النوع من النصوص بصورة كبيرة في جمع عدد هائل من المادة اللغوية 
للذخيرة؛ حيث لم تكن هناك حاجة لإضاعة وقت ت كبير في الحصول على 
حقوق النشرء بالإضافة إلى عدم الحاجة إلى تدقيق تلك النصوص من حيث 
التحويل الخاطئ للكلمات» وغير ذلك من المشكلات التي توجد في الأشكال 
الأخرى من النصوصء بالإضافة إلى إمكانية جمع أنواع عديدة مسن 
النصوص بما يحقق تنوع المادة اللغوية. وإذا كانت المستندات الحكومية 
الإلكترونية بها إشارة إلى مصدر المستند؛ فيمكن تصنيفها مباشرة حسب نوع 
وسيط النشر الخاص بها. أما النصوص التي لا تحتوي تلك المعلومات فلا 
ترج تحث أي تصنيف. أما الدوريات فتنقسم إلى جرائد» ومجلات علمية؛ 
. ومجلات عامة» وتنقسم الكتب إلى كتب تعليمية» وكتب مساعدة» ومؤلفات 
علمية» ومؤلفات عامة. أما الدوريات فتضم الجرائد الدورية الصينية وغير 
الدورية» بالإضافة إلى الجرائد اليومية للأطفال» ونشرات مركز الحاسب 
بمعهد الدراسات المركزي بتايوان. وتضم المجلات العامة مجلات الشئون 
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العامة والموضة؛ والسياحة؛ ومجلات الشعرء ومجلات السينما؛ أما المجلات 
العلمية فتضم معلومات مختصرة عن الأطباء» والمجلات الصادرة عن وكالة 
القوميات. أما الكتب التعليمية فتضم كتب الأدب واللغة في المرحلة الابتدائية» 
والحوارات المستخدمة باللغة الصينية الصادرة عن مركز المعلمين بتايوان؛ 
أما الكتب المساعدة فقد جَمّعت في إطارها التقارير الفنية الصادرة عن فريق 
بناء ذخيرة المفردات الصينية. أما المؤلفات العلمية فتشمل الأبحاث العلمية. 
وتشمل الكتب العامة مسودات الخطب السياسية عن المبادئ الثلاثة 
للديمقراطية؛ والمؤلفات الشهيرة في علم النفس الذي تم تمويلها من صندوق 
خونغ تيان تشوان وما إلى ذلك. والمادة اللغوية الشفهية مصدرها .الحوارات 
اليومية لطلاب الصين الأم المغتربين في أميركا. 

ه) أسلوب الكتابة 

تنقسم النصوص من حيث أسلوب الكتابة إلى الأسلوب السردي» 
والأسلوب الجدليء والأسلوب التفسيريء والأسلوب الوصفي. فالأسلوب 
السردي هو الذي يتناول وصف الإنسان والأشياء من حيبث الخصائص 
والحركة والتغيرات التي تحدث؛ فالمقالات التي تتناول سرذا عامًا أو تلك 
التي تقدم تقارير معلوماتية تم إدراجها تحت تصنيف الأسلوب السردي. وقد 
كانت النصوص السردية هي أكثر الأساليب المستخدمة من بين ما تم جمعه 
من نصوص الذخيرة. أما النصوص الجدلية فهي تلك التي تغرض رأي 
الكاتب الشخصي وتسعى إلى الحصول على تأييد الآخرين وإقناعهم بوجهة 
نظر معينة. والأسلوب العلمي وظيفته الأساسية هي تحليل الظواهر المترتبة 
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على حدث معين؛ أو إظهار الحقائق العلمية» الأمر الذي يمد المتلقي 
بمعلومات أو حقائق عن شيء معين. ولذلك فإن النصوص التي تتناول 
وظائف وطبيعة الأشياء من وجهة نظر موضوعية تنتمي إلى الأسلوب 
العلمي. أما الأسلوب الوصفي فذلك الذي يتناول الأشخاصء والحيوانات»: 
والأشياء أو الأماكن بالوصف المتعمق؛ ومن الممكن أن يحتوي ذلك الأسلوب 
تشبيهات واستعارات وكنايات وغير ذلك من الأساليب البلاغية؛ حيث يستعين 
بها الكتاب في الوصف العميق لموضوع ما وإظهار خصائصه بصورة 
دقيقة. النصوص الوصفية تحتوي أيضًا ما يتعلق بالمشاعر الداخلية للكاتب 
مثل اليوميات التي تصف المشاهد والكائنات. 

و) الشكل اللغوي 

الشكل اللغوي: يعني الأسلوب الذي تظهر عليه لغة النصوص في 
الذخيرة» حيث تنقسم مادة الذخيرة إلى لغة تحريرية ولغة شفهية:» ومن 
المعروف أن هذين الشكلين يختلفان بصورة كبيرة. ويمكننا تقسيم اللغة من 
حيث الشكل إلى لغة مكتوبة (0751668» ولغة مكتوبة لكي قرأ 0ع 1 
(0هع-»5»: ولغة مكتوبة لكي يتم التحدث فيا (معكلمم؟ك عطعواسمع) 11م )ل 
ولغة منطوة قة «ع!وم5: ولغة منطوقة لكي 5 (لاع1) ل جاع ط»0)-دعء01م5). 
أما اللغة المكتوبة فتشير إلى اللغة التحريرية العامة» ويندرج تحتها غالبية 
النصوص التي تم جمعها في الذخيرة» أما اللغة المكتوبة لكي يتم التحدث بها 
فتشمل النصوص المسرحية والحوارات الإذاعية التي تَكتّب لكي يستخدمها 
شخص ما في ظروف معينة؛ ولذلك فهي تختلف إلى حذ حدٌ كبير مع اللغة 
الشفهية التي تسستخدم في الحياة الواقعية؛ أما اللغة المنطوقة فتشير إلى 
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الحوارات الشفهية العامة» ويعتبر جمع هذا النوع من المادة اللغوية وتنظيمها 
صعب إلى درجة كبيرة» لذلك فإن نسبة تمثيله داخل الذخيرة جاءت قليلة. 

أما اللغة المنطوقة لكي نَكْتَب فتشير إلى ذلك النوع من النصوص الذي 
يتم تدوينه داخل المؤتمرات؛ ونظر! إلى وجود فرصة للترتيب والمعالجة؛ 
فيمكن حذف العديد من العناصر اللغوية الزائدة التي تمشل طبيعة اللغة 
الشفهية داخل وقائع المؤتمر؛ وذلك من أجل أن يتم التمييز بينها وبين كل من 
اللغة الشفهية أو اللغة التحريرية الواقعية. 
*- نسب النصوص المكونة لذخيرة معهد الدراسات المركزي بتايوان 

تم توزيع المادة في ذخيرة معهد الدراسات المركزي بتايوان بصورة 

رئيسة حسب الموضوعاتء وقد وصلت نسبة تمثيل تلك الموضوعات داخل 

. الذخيرة حتى الآن إلى ما يلي: 

90١٠١١ الفلسفة:‎ 

العلوم: 000 

905٠© الاجتتماع:‎ 

الفنون: ©0؟9 

95٠١ الحياة:‎ 

9٠٠١ الأدب:‎ 

وقد تم اختيار المادة اللغوية وفقا لتلك النسب من المصادر التالية مع 
اعتبار أن وحدة العد هي الرموز الصينية: 


]38 


أ) الصّحُف 

الصحف الصينية: . رمزاء الصحف الحرة: ١١68955‏ 
رمزاء صحف الأطفال: 5197٠0‏ رمزاء نشرات ومراسلات مركز الحاسب 
التابع لمعهد الدراسات المركزي بتايوان: 151/157 رمزا. 

ب) المجلات العامة 

مجلات الشئون العامة: 5١994‏ رمزاء مجلات الموضة: 5984٠‏ 
رمزاء النشرات السياحية: ١78477‏ رمزاء مجلات السينما العالمية ١48515‏ 
رمزا. 

ج) الدوريات العلمية 

الدوريات الصادرة عن مركز القوميات التابع لمعهد الدراسات 
المركزي: ١١755‏ رمزاء نشرات الأطباء بمعهد الدراسات المركزي: 


/ا.ء هه رمزا. 
د) الكتب التعليمية 


المؤلفات الدراسية الصادرة عن الحكومة لمرحلة التعليم الابتدائي» التي 
تقع في ١7‏ مجلدًا: 8817/55 رمزا. 


ه) الكتب المساعدة 

التقرير الفني لفريق بناء ذخيرة المفردات التابع لمركز المعلومات 
بمعهد الدراسات المركزي: 78547 رمنا.. 

و) المؤلفات العلمية: والأبحاث 


رمزا. 
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ز) النصوص التي لا يمكن إدراجها تحت تصنيفات سابقة 

٠١‏ رمز. 

ح) الكتب 

عدد ثمانية مجلدات لعلم النفس صادرة عن جمعية صندوق.خونغ تيان 
تشوان. 

ط/ الوسائط المرئية والمسموعة 

المقالات الصادرة عن الدوائر العلمية التايوانية: ٠١96©‏ رمزا. 

يي( حوارات ومقالات صحفية: 

١‏ رمزا. 
4- تمييز حدود الكلمات داخل الذخيرة وترميزها من حيث التصنيف النحوي 

.اتبعت ذخيرة معهد الدراسات المركزي بتايوان أسلوب التمييز الآألي 
لكلمات الذخيرة. وقد كانت عملية التقسيم تتم اعتمادًا على التسعين ألف مادة 
لغوية التي تمثل محتويات المعجم الصادر عن معهد الدراسات المركزي 
بتايوان. أما المفردات التي لم ترد في المعجم؛ فكان التعامل معها يتم 
باعتبارها رموز! ويتم تمييزها على أساس الرمز وليس الكلمة. وبعد ذلك يتم 
الجمع بين الرموز التي لها قوة توليد كلمات عن طريق اللواحق والرموز 
المعبرة عن الأرقام في إطار كلمات مركبة. وعند تمييز الكلمات؛ كانت 
الميادئ العامة للتمييز كما يلي: 
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أ) الوحدات اللغوية التي لها استقلال من حيث المعنى؛ يتم اعتبارها 
وحدة يتم تمييز الكلمات على أساسها. 

ب) يتم تمييز الوحدات اللغوية الشائعة وفقا لما هو متعارف عليه في 
الاستخدام اللغوي. 

ج) المعنى والتركيب يتم النظر إليهما معًا باعتبارهما أساس تمييز 
حدود الكلمات. 

د) يتم التمييز على أساس العلامات التي لها مغزى واضح في الفصل 
بين حدود الكلمات. ش ١‏ 

ه) الوحدات اللغوية المتفقة من حيث الشكل والمختلفة مسن حيث 
التركيب يتم تمييزها على أساس السياق اللغوى. 

و) إذا كان هناك تضارب في مبادئ التمييز يتم اللجوء إلى اتفاقية 
التوحيد المعياري الصادرة عن جمعية اللغويات الحاسوبية. 


وبناءً على ما سبق تم تمييز حدود الكلمات في ذخيرة معهد الدراسات 


المركزي في تايوان: وقد تم اللجوء إلى منهجية البدء بالحاسب, ثم المراجعة 
من خلال العنصر البشري في عمل الترميز اللغوي لمحتوى الذخيرة 
بالكامل» وقد تم استخدام عدد ستة وأربعين رمز في عملية الترميز النحوي 
للمفردات. 


وبالإضافة إلى عملية ترميز أقسام الكلام» فقد تم عمل ترميز آخر 


ليعض العناصر النحوية الخاصة بالذخيرة» وقد تم استخدام ثماني علامات 
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لهذا الغرضء وقد صمت هذه العلامات خصيصى من أجل الاستخدام في 
رصد بعض الظواهر اللغوية في اللغة الصينية؛ مثل ظاهرة الفعل والمكمل؛ 
والأفعال المتعدية» والوحدات اللغوية التي تتخلل وحدات متعارف عليها 
سابقاء والتراكيب الاسمية والكلمات الدخيلة. 

علاوة على ذلك؛ فقد تم إضافة خاصية الاستعلام داخل الذخيرة وفقًا 
للكلمات المفتاحية؛ حيث يمكن استخراج السياقات التي تحتوي كلمات محددة 
من بين محتوى الذخيرة: بالإضافة إلى تقديم المعلومات الخاصة بتمييز حدود 
الكلمات وترميزها. 

ويُظهر الجدولان ٠١-7‏ و1-١1‏ نتيجتين للاستعلام بكلمة مفتاحية!) 
داخل ذخيرة معهد الدراسات المركزي بتايوان إحداهما تعرض مجموعة 
سياقات وردت فيها الكلمة المفتاحية دون إضافة معلومات عن التصنيف 
النحوي للكلماتء» والنتيجة الثانية السياقات نفسها بعد تمييز حدود الكلمات» 
ومُرفقا مع كل كلمة الترميز الخاص بتصنيفها نحويًا"”. 


)١(‏ الكلمة المفتاحية التي تم الاستعلام عن سياقاتها هي كلمة "333136" 'يُجرب": وقد تمت 
كتابة هذه الكلمة بالبنط السميك ووّضع أسفلها خط في النص المترجم لتسهيل عملية 
تمييزها على القارئ العربي.(المترجم) 

)١(‏ الغرض التواصلي من عرض الجدولين ٠١-17‏ و7-١١‏ في النص الأصلي هو 
إظهار نتيجة الاستعلام بكلمة مفتاحية داخل الذخيرة؛ مرة عندما تكون النتيجة دون 
ترميزء ومرة ثانية عندما تكون النتيجة مُرمّزة. ويلاحظ أن النتيجة المرمزة لم تشمل 
جميع الكلمات في الاستعلام الأول» بل اقتصرت على الكلمات المُخّنة في برمجية 
الترميز. ونوجه عناية القارئ إلى أن الكتاب الأصلي ضمٌ مُرفقا به مجموعة العلامات 
المستخدمة في ترميز اللغة الصينية ومعناهاء وقد قمنا بترجمة ما تشير إليه تلك 
العلامات باللغة العربية.(المترجم) 
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جدول (؟-. :)١‏ مواد لغوية من تسعة عشر مقطعا 
من نصوص مختلفة 
و 121 ,و نازو ف اق و [7<8 لاط 8641/5303 ": 
ا 2-8 75 9 نا 
0 5-1 284 
لعا 7 و [ااامللا 1818٠‏ 2515 
2713 ال :ةذ [!8 ج33 ج21 7/19 "1 1 25 84 11-1111 
٠.‏ ج3282 ع رار [/ق 6 98 7221 لازا 
1خ 8 صمنادك ‏ 1056© جز [5؟ز| خ 70 جا غك 14 17د[ 
2 1 58ت لاا 


لبت 5 1833278 , 7522 2 عد .1111 ناف أن 
232315 , 25 افع لاهن 848 


+313 [37321/0 20110 202128018 
7717 , 27 118/00 7 ع1 1171 


25 - 22ج 8 .لما , التايلتة انفلا 112277 , 177 5112| كار راو وز 
721 8112 7 

, 22 21-15-19 1 5 1 لا قم 
موحي اجن ادو ابا يلها 2 2030 

بأ ع2 4ك جك -- 11130075 للا ٠‏ 161877 01 7018 

#عرظة + 2 5م اللي تر طن 

ه, بام ار ين 8 13ر85 0" 
3 7111 

ا كد 00 21 د ديك كين 0 11 
و 801182 :2/41 8ا1ة, كا 01:10/18-1-2-1<2-10 ,ئها بلا تر اط مار[ كه 

7 , 127 8111 2 تيتا ينا 1 [5211 111773 ! أذ عب :1212 - 
5188-7 7 

2 1 لا لذي كع 
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11 ١11ط‏ لاله 892-886 


"67 " .مامتا 18لا , 25 [2 خ 2د 85757 , 18181 ه227 
و 32:71:17 , كا[ قا 


> ممفاشطلط [ه 718‏ ,. ##الاقق#رظ , 7ط رهم 
17 81111 118 , +2 و2 لد 1/8 لخلا 
! اراق ! 14 "تطخ 2282 + , :رذ 
لال ات 
ل إل 21 753 
ل و 1 1/115 
1 عه 712 : 05 تلا 
ال ا و اقللا 12 28 .ايا 2273 
اما ع ترج غ3 ورم 
موريج 1875373144 , ع3 لاخ يج عن 91 


جدول :)1١-17(‏ بعض مفردات المواد اللغوية السابقة 
مُرَسَّرَة نحويًا 


كن (81) 0 (75) يلتاياتآ (م71) 232 (00) ا (طلة) 2 ,(0) [7-3 
(ط2) 728 ررو1) 224 (00 


3 15/) تيتا (074 عدنق (0) 2878 (م25) للاكق ,080 ع 
(97-2) 8 (0) 5 ,ك81) "1 76 00 


(0 اط (71؟) يأتايكتا 808 [اق8 مهام - 070 ج3 (0 22 (0) 73 
() ثلا 881801713 (0) 7 


ع1(0105؟؟) يأعابتا (100) [9 (طتة) ك4 د 8 (25) 70 (ول) جدعده 
غخس 1715 (26228) 80 (5) 


(ا8) ناا 1719 مايخ 11) 8515 (دا0 ك2 (طلح) 1838 ,010 ع 


)3 2 8 ,رردلة) زرو (0) 8 


:117 ,075 تقذ (0) 3 (دا0 2 (دل0 2/21 010 59 00 +3 
(©81) 825 (6) عن (1715) 18 (©) :أ رطلة) 


(داة) © (©) لا ,(71ا) اتا 0715 78 (6) ا (0) 28725 (طل0) ك4 
(722)179 870 2 - ردهلة) 


35 (071) تتا (0) ع2 (0) 7212 ,(711) 1113232 (015) 2 
(ه01) 18 (طلا) ك 21 18 ١‏ ردلة) 


8 ,(0/1 عن (0) 25 (دل) 6528 (ول) 2 (دهلة) - (1) ه33 
(©5) و رطل) نز (ك31) عتما 28 (دع31) 


ر(012) 2 3 «(1/) لبط (0) [5 (0) كا (دا0) جغلا ,(واا) كلا 
(دة) تقا؟170(2) 393 


(طل) 5 01719 بلتتيت (00) خط رول) 6176 !(1) 181 رولة) 2 : 
(0) “7 0713 ع2 رواح) ع قز (0) 


نأا (طلط) :2 (71) بلتتياتة () 71277 (ع1١)‏ 11 (1713) 32 78 10) اذا 
و(819) 1727 (4 217 ةا (0) 


ر(012) 332 (71) يزيت (00) 70197 (طلح) ع2 ررداة) 2ك رودل 2 
(0) 6532 (0) 88788 (785) 8 


357 '" . (9/17) بلتاباقة (1719) :12 ((1) تلا ,(1713) 22 [5 (00) 1255 
(دكة) 171:81 (طلح) 


(ط01) 111 ٠."‏ 9719) يأتاياتا (0) لظ [5 071 18 (00) “1 ,(1713) جز 
,(2)1713 2 لا 18 


خرقهاط !1 5 "" . 971) بأتابتا (0) 2 رطل0) 3 (310) 17+ 
(818)0 إ(ولة) 


)١717( 926 )12(‏ قطي 8 3 (1739) 8 (5ل8) 15 :(دل) يع 
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(0) إنقق .050 01807 كدج 


2# ن1ة) 1 2ع2 . (9/1) بتتتا (0) 712 (رطلح) و2 0177 قلا 
(دلا) لظا (و31) ّْ 


5 (طلن) غ4 71 بأتتزاتا 01 38ج (060) عد 01719 8076 ,ر(عا) كر 
(دا0) 7 ردل0 ع 7801700 (66) 
ثالكًا: الذخيرة التزامنية لخمس مناطق صينية 

الذخيرة التزامنية لخمس مناطق صينية يُطلّق عليها اختصارا ذخيرة 
6 :: والتسمية الكاملة لها هي: ععصنتطن) صا بعسد؟؟ عاكتنوصاءآ 
ك1 سوه وقد تم إطلاق هذه الذخيرة من قبل جامعة المدينة بهونج كونج. 

وقد اتبعت هذه الذخيرة أسلوب جمع المادة اللغوية من خلال خطوات 
تزامنية» والغرض من ذلك اختيار مادة لغوية مُمَثيّة لكل منطقة وبحجم 
مناسب؛ بغرض التوصل لوصف الاستخدام اللغوي الواقعي للغة الصينية في 
عدة مناطق على مستوى الصينء بالإضافة إلى تدعيم النظريات المتعلقة 
باللغة الصينية بالشرح. 

ويقدم المرجع رقم 7*! شرحًا تفصيليًا لهذه الذخيرة من حيث عمليات 
البحث والتطوير 
١‏ - خصائص ذخيرة ليفاك ©1174 
تظهر خصائص الذخيرة المذكورة من خلال النقطتين التاليتين: 

أ) تعتبر عملا غير مسبوق على مدى التاريخ من حيث جمع مادة 
لغوية هائلة الحجم من خمس مناطق صينية بشكل تزامني. وتضم 
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هذه المناطق الخمس بالإضافة إلى الصين الأم كلا من هونج كونج» 
وتايوان» وسنغافورة؛ ومكاو. 
ب) في أثناء تصميم الذخيرة كان هناك مثابرة وإصرار على جمع 
المادة اللغوية خلال فترة زمنية طويلة جدًّا مع مراعاة مسستوى 
التزامن في جمع النصوص على مستوى المناطق الخمس. 
إن جوهر علم اللغة التزامني هو دراسة اللغة من خلال قضية 
افتراضية عبر فترة زمنية محددة؛ بغرض وصف حالة اللغة في تلك الفترة» 
مع عدم الالتفات إلى الوضع السابق والمستقبلي لتلك الحالة. 
إن اللغة كائن حي» يتغير آلاف المرات مع مرور الزمن؛ وأهم مظاهر 
هذه الحالة من التغير هو ظهور المفردات الحديثة وانتشارهاء أو تغير معنى 
المفردات الموجودة بالفعل أو اختفائها. 
ولذلك فإن جمع المادة اللغوية تحت شروط معينة من الأفضل أن يكون 
تحت مظلة فترة زمنية معيئة بدرجة أو أخرىء الأمر الذي يسمح بعمل 
مراقبة ومشاهدة لظروف انتشار وتغير عدد من المفردات» بما في ذلك 
احتمال خضوع تلك المفردات لتأثير البيئات المختلفة. ولذلك فإن ذخيرة ليفاك 
قد حددت المرحلة الأولى لجمع المادة اللغوية بثلاث سنوات. 
وحتى يمكن الحصول على مواد لغوية مناسبة» تم توزيع المادة اللغوية 
الصحفية التي جُمعت للذخيرة على المناطق الخمس؛ بحيث يتم الحصول 
عليها من صحف تلك المناطق من منشورات يوم واحد مع مراعاة أن تكون 
الموضوعات متشابهة قدر الإمكان. 


167 


والمقصود بالتزامن في ذخيرة ليفاك هو نوع من التزامن أكثر صرامة 
من ذلك المتعارف عليه في مفهوم التزامن المستخدم في علم اللغة التزامني؛ 
بمعنى أن يتم عمل مراقبة زمنية لمحتويات الذخيرة في خلال الفترة الزمنية 
التي يتم التعامل معهاء والغرض من ذلك هو الرغبة في أن تكون هناك 
فرصة لمراقبة ظواهر النمو أو الاضمحلال لبعض المفردات بصورة كاملة» 
بالإضافة إلى التعرف على مصادر تلك المفردات ومغزاها. 
؟ - نطاق ذخيرة ليفاك وطرق جمع المواد اللغوية 

بدأت الإرهاصات الأولى لفكرة ذخيرة ليفاك منذ عام ١391١ء‏ ومع 
حلول عام ١197‏ بدأ التخطيط الفعلي لها بعد الحصول على التمويل اللازم 
لبنائها. وتَمَثلت الخطوات التنفيذية لذلك في جمع المادة اللغوية عن طريق 
اختيار مواد صحفية صادرة في يوم واحد في المناطق اللغوية الخمس: هونج 
كونج» ومكاوء وشنغهاي؛ وسنغافورة» وتايوان» على أن يتم جمع المادة مرة 
كل أربعة أيام. تضم المادة المقالات الافتتاحية» وجميع الأخبار والمقالات في 
الطبعة الأولىء والكتابات والمناقشات الخاصة بالشئون الدولية والمحلية» 
على أن يكون مُجْمَل ما يتم جمعه كل يوم في حدود عشرين ألف رمز 
صيني. وفي العامين من شهر يوليو ١153©‏ حتى يونيو ١9517‏ وصل. حجم 
المادة التي جُمعّت لذخيرة ليفاك على التوالي 5198٠١‏ رمزء و844515 


رمزا. 
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*- التمييز الالي للكلمات وبناء الذخيرة اللغوية 

الهدف الأساس من بناء ذخيرة ليفاك هو عمل تحليل للمفردات؛ لذلك . 
فقد كانت المَهَمّة الأولى في عملية بناء الذخيرة هي عمل تمييز آلي لحدود 
الكلمات داخل الذخيرة» وقد استخدمت ليفاك منهجية أقصى طول لتَجَمُع 
الرموز في تمييز حدود الكلمات الصينية؛ حيث يقوم الحاسب بعمل التقسيم 
الآلي للمفردات في البداية على أساسهاء بالإضافة إلى إضافة بعض العلامات 
بصورة آلية إلى عدد من الكلمات الخاصة (مثل الأرقام؛» وأسماء الأشخاص» 
وأسماء الأماكن) وذلك لتسهيل عملية الاستخدام والتحليل فيما بعد. وقد 
وصلت دقة التمييز إلى ما يزيد عن نسبة ©74. وبعد ذلك يتم عمل مراجعة 
باستخدام العنصر البشري لنتيجة التمييزء ويكون ذلك من خلال خطوتين 
رئيستين: أولاً: عمل فحص لجميع النصوص التي تم عمل تمييز لكلماتها 
وتصويبهاء ثم استخراج قائمة تضم جميع المفردات المكوّنة للذخيرة بصورة 
آلية؛ ثانيًا: فحص القائمة ومراجعتها لاكتشاف ما إذا كانت هناك مفردات قد 
تم تمييزها بصورة غير مناسبة» وفي النهاية يتم إدراج هذه المفردات في 
معجم ليفاك؛ وذلك من أجل رفع مستوى دقة البرنامج الذي يقوم بتمييز 
المفردات في ذخيرة ليفاك. 

أما المقالات التي يقوم بمراجعتها العنصر البشريء فيتم عمل قراءة 
آلية لها بعد ذلك باستخدام الحاسب الآلي» وتستخدم المعلومات التي يتم 
الحصول عليها في بناء ذخيرة ليفاك. وبالإضافة إلى تسجيل جميع المفردات» 
يتم تسجيل المنطقة التي وردت منهاء وتاريخ النشرء بالإضافة إلى المعلومات 
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الأخرى التي لها فائدة؛ مثل النطق الصيني القياسيء والنطق المحلي لها. 
ومن أجل تسهيل عملية الاستعلام داخل المواد التي تم جمعها» قم تدوين 
جميع محتويات النصوص وعناوينها داخل الذخيرة اللغوية. وبالإضافة إلى 
ذلك: فقد تم تسجيل المكانء والتاريخ؛ والفقرة: والجملة وموقع ظهور الكلمة 
داخل الجملة وما إلى ذلك؛ وذلك من أجل زيادة سرعة البحث والتنقيب عن 
البيانات داخل الذخيرة: بالإضافة إلى تصميم برمجية استعلام سريعة وشاملة 
عن نصوص الذخيرة. 

وقد قدمت برمجية الاستعلام بذخيرة ليفاك إمكانات الاستعلام التالية: 

أ) الاستعلام بالكلمة 

حيث تكون نتيجة الاستعلام إظهار خصائص الكلمة بما في ذلك النطق 
القياسي ونطقها الدارجء بالإضافة إلى تقديم شرح لها باللغة الإنجليزية» مسع 
إظهار المعلومات الإحصائية الخاصة بها مثل عدد مرات ظهور هذه المفردة 
في كل منطقة لغوية من مناطق الذخيرة الخمس؛ وإدراج الكلمات المقابلة؛ 
بمعنى إظهار مقابلات الكلمة في كل منطقة من مناطق الذخيرة. 

ب) الاستعلام بالنص 

السماح للمستخدم بالاستعلام باستخدام كلمة» أو جزء من كلمة» أو نوع 
من الأنواع النحوية للكلماتء أو النطق الصيني القياسي أو النطق الدارج؛ 
بحيث تقترن أدوات الاستعلام تلك بمجموعة أخرى من الشروط المرتبطة»: 
وتكون نتيجة الاستعلام استخراج الجمل التي تنطبق عليها شروط الاستعلام٠‏ . 
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ويمكن الاستعلام وفقًا لأربعة معايير هي: استعراض الكلمة المطلوب البحث 
عنها ومعها الكلمات المرافقة قبلها وبعدها بعدد معين من الكلمات» 
واستعراض التعبيرات اللغوية التي تحتوي كلمات معينة؛» واستعراض الجمل 
التي تحتوي كلمات معينة» بالإضافة إلى استعراض عناوين النصوص التي 
رابعًا: الذخيرة اللغوية لدراسات اللغة الصينية الحديثة 

تم اعتماد الذخيرة اللغوية لدراسات اللغة الصينية الحديثة باعتبارها 
المشروع العلمئ لقطاع العلوم الاجتماعية والإنسانية في الخطة الخمسية 
الثامنة لمجلس الدولة الصينيء؛ وفي الوقت ذاته تم اعتمادها باعتبارها 
المشروع العلمي الرئيس لجامعة اللغات والثقافة في إطار الخطة الخمسية 
الثامنة للحكومة الصينية. 

وكان الهدف البحثي من ذخيرة دراسات اللغة الصينية الحديئة هو 
تقديم قاعدة بحث لغوية أساسية ذات نطاق واسع يستخدمها العاملون في حقل 
معالجة المعلومات باللغة الصينية» وتعليم اللغة الصينية» والعاملون في حقل 
الدراسات اللغوية الصينية؛ وذلك من أجل دفع الدراسات اللغوية القائمة على 
اللغة الصينية إلى مزيد من التعمق#1. ١‏ 
-١‏ اختيار المادة اللغوية وجمع العينات 

تم تقسيم العمل في الذخيرة اللغوية للغة الصينية الحديثة إلى مستويين» 
المستوى الأول هو جمع ذخيرة لغوية خام يصل حجمها إلى ٠١‏ مليون رمز 
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صينيء المستوى الثاني هو جمع ذخيرة لغوية سبق معالجتها تصل إلى " 
مليون رمز صينيء أي ذخيرة لغوية تم عمل تمييز لحدود كلماتها وعمل 
ترميز لأنواع الكلمات بها. 

وقد كان هناك مستويان لجمع المادة اللغوية للذخيرة. 

المستوى الأول يتم عن طريق انتقاء مادة لغوية خام تصل إلى 7٠‏ 
مليون رمز صيني من بين مادة يصل حجمها إلى 5٠‏ مليون رمز. 

وقد كانت قواعد اختيار العينات تتم على أساس الوضع في الاعتبار 
مدى اكتمال النص وطوله وغير ذلك من الاعتبارات» على سبيل المثال تُستتّبعد 
النصوص التي يقل حجمها عن ألف رمزء وأيضًا النصوص غير المكتملة. 

وقد اشتملت المادة الأساسية التي تم اختيار العينات منهاء التي تصل 
إلى ٠١‏ مليون رمز على النصوص الإخبارية للصين في الفترة مسن عام 
1 إلى ١467‏ بمعدل ٠١‏ مليون رمزء والمراسلات الصحفية لشبكة 
الصين الجديدة شين خوا لعام ١95:‏ بحجم عشرة ملايين وخمسمائة ألف 
رمزء والنصوص الكاملة لجريدة الشعب اليومية لعام ١535‏ بما يقرب من 
٠‏ مليون رمز. 

هذا بالإضافة إلى مختارات للكتب من مقتنيات المكتبات العامة الصينية 
. في تخصص الأدبء ومختارات من اللغة الشفهية تصل إلى ؟ مليون 
وخمسمائة ألف رمز تم إدخالها إلى الحاسب الآلي عن طريق العنصر البشري. 

وقد كانت القواعد التي اتبعّت في اختيار ذخيرة العشرين مليون رمز 
من بين الحجم الإجمالي لتلك الذخيرة كما يلي: 
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(جريدة الشعب اليومية) (عام ١55‏ بالكامل) ٠ثوءرءء‏ هه رمز. 

(الأخبار الصينية) 5,000,0٠0. )1١955-1١9917(‏ رمز. 

المؤلفات العلمية وغيرها 5,565٠:6٠,.6٠٠‏ رمز. 

الأعمال الأدبية (عينات تم إدخالها يدويًا) ١,5.٠0,6٠٠‏ رمز. 

(من بينها نصوص روائية تصل إلى مليون رمز»ء ونصوص نثرية 
تصل إلى ٠٠١‏ ألف رمزء ونصوص في مجال الأدب التقريري تصل إلى 
٠‏ ألف رمز). 

مواد شفهية قياسية (عينات تم إدخالها يدويًا) مليون رمز. 

(من بينها نصوص مسرحية تصل إلى ٠٠١‏ ألف رمزء ومونولوجات 
تشمل مونولوجًا فرديّاء وخطبًاء وحوارات ثنائية» وقصصنًا بما يصل إلى 
٠‏ ألف رمز). 

ومن الأرقام سالفة الذكر يمكننا ملاحظة أن المواد الصحفية في 
المستوى الأول قد وصلت إلى 9676» والمؤلفات العلمية وصلت إلى 
5 , والأعمال الأدبية إلى 901,5» والمواد الشفهية إلى ©0؟. 

أما المستوى الثاني فقد تم استبعاد الأخبار الصينية والمؤلفات العلمية 
منه؛ حيث تم انتقاؤه بشكل عشوائي وفقا لنسب معينة قد سبق الاتفاق عليها 
في حدود مليوني رمز صيني من مادة لغوية يصل إجمالي حجمها إلى عشرة 
ملايين ومائتين وخمسين ألف رمز. وقد تم التفكير في (جريدة الشعب 
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اليومية) باعتبارها جريدة عامة غنية بالمواد اللغوية من حيث تنوع 
الموضوعاتء على عكس الجزء الباقي من المادة اللغوية» الذي يصل إلى >" 
ملايين وخمسمائة ألف رمزء التي تتميز بوحدة الموضوع والمضمون» 
بالإضافة إلى أن تلك الموضوعات يمثلها نسبة معينة في محتوى (جريدة 
الشعب اليومية). وعد تحديد نسب النصوصء تم مراعاة كلا من الموضوع 
والمضمون؛ حيث صقت النصوص وفقا لهذين المعيارين. وعند التفكير في 
نسبة تمثيل كل نوع من النصوص داخل الذخيرة» تم الاهتمام بالجمع بين 
اكتمال النص ومبدأ النقطة المركزية التي تدور حولها موضوعات 
النصوص. على سبيل المثال» إذا تحدثنا عن الموضوع؛ فإن موضوعات 
السياسة» والاقتصادء والأدب يكون لهما نسبة تمثيل أعلى من التاريخ 
والجغرافيا والشئون العسكرية وغيرها من المجالات التي يكون التمثيل 
اللغوي لها ضعيفا إلى حد ما لأنها تبعد عن الموضوع المركزي الذي 
تتمحور حوله نصوص الذخيرة. أما إذا تحدثنا من ناحية المضمون فإن 
السرد والنقاش يكون التمثيل اللغوي لهما كبيرًا جداء أما الشرح والتطبيق 
فتكون النسبة على العكس من ذلك ضئيلة. وعلى ذلك تكون خطوات جمع 
العينات كما يلي: 

-١‏ بناء قاعدة بيانات لخصائص النصوص؛ تضم خصائص 
النصوصء وعنوان النصء؛ وعدد الرموز المكونة له.ء ومكان 
النشرء واسم الكتاب أو الجريدة» ودار النشرء بالإضافة إلى تاريخ 
النشرء وتصنيف الموضوع. وأسلوب الكتابة. 
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1- تحديد طريقة توزيع المادة اللغوية. 

. الاختيار العشوائي للعينات. وللتعرف على نتيجة اختيار العينات‎ -٠ 
والجدول‎ ١7-7 والجدولٍ‎ ١7-7 بالمرحلة الثانية انظر الجدول‎ 
14-7 


جدول (؟5-1١):‏ توزيع للموضوعات داخل د ا 


العدد -_- 8 
7 
و6 
١‏ 
مذكرات 3 
أبحاث علمية 1/1 
: 38 
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جدول اله ا 2 : توزيع ' الأساليب الخوية داخل المادة الشفهية 


١ | . فردي_‎ 0 

مؤلفات نقدية كل ١‏ ا 
محاضرات وخطب 7 ا 
2 قصصط هك 5" 


وقد تم عمل تهيئة أولية للمادة اللغوية قبل معالجتها وذلك بالنسبة إلى 
المواد المُنترجة في إطار المستوى الثاني. ففي البداية تم تنقية جميع 
النصوصء على سبيل المثال تتقية النتصوص المسرحية من الأجزاء التي 
تخرج عن نطاق الحوارء هذا بالإضافة إلى حذف المعلومات المتعلقة 
بالطبعات في العينات الأخرى من النصوصء ثم إضافة علامات تخص كل 
مينةه حيث تماد الشسمية وكا لتصكيف الموشوع. 
؟ - معالجة الذخيرة 

إذا أردنا عمل ترميز للذخائر اللغوية الصينية فلا بد أن تكون البداية 
بتمييز حدود الكلمات داخل الذخيرة. حتى يمكن جعل عملية التفسيم تحنظفى 
بموثوقية علمية» وضمان أن تكون عملية التقسيم موحدة» فقد تم وضع معيار 
على مستوى عال من الدقة والوضوح. بالإضافة إلى إمكانية التطبيق عمليا. 
ففي البداية» تم الاستعانة بعدد مائتي لف رمق من الوعرة الصينية النذا-4 
للاستخدام للغوي من حيث الشمول والانتشارء وتم البحث عن الرموز التي 
تون هه كلدات قاية وكلقية اطي بت صمل قطيل متمد الاتباهاته 
لتلك الكلمات المركبة من عدد من الرموزء بما في ذلك طريقة التركيب 
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الداخلي» (هل يمكن للمكونات الداخلة في التركيب أن تَسْتَخْدَم منفردة» ونوع 
العلاقة بين العناصر المكونة للكلمة» ووظيفة تلك المكونات» وهل يمكن 
للعناصر الداخلية أن تتوسعء وما إلى ذلك): والوظيفة العامة للكلمة» وطبيعة 
التركيب الدلالي» وتركيب الوحدات الصوتية» والعناصر الأسلوبية وغير ذلك 
من المجالات. وعلى هذا الأساس يتم التأكد من فاعلية المنهجية والنظرية 
المتبعة في عملية تمييز حدود الكلماتء إلى أن نصل في النهاية إلى تحديد 
قواعد تقسيم النصوص الصينية إلى كلمات. وتتضح القواعد المُتبعة في تقسيم 
النصوص إلى كلمات من خلال الجوانب الثلاثة التالية: ش 

-١‏ الكلمة لها حدود دلالية ونحوية. 

-١‏ الحدود التي يتم تقسيم الكلمات على أساسها ليست مطلقة. 

*- ينبغي مراعاة التمييز بين المستويات المختلفة للمادة اللغوية. وفي 

النهاية يتم التوصل إلى الحكم عما إذا كانت الوحدة اللغوية المفردة 
تدخل ضمن إطار كلمة مركبة أم أنها تمثل وحدة مستقلة بذاتها. ' 

وعلى هذا الأساس» يتم عمل ترميز نحوي للكلمات المكونة للمسستوئ 
الثاني من ذخيرة دراسات اللغة الصينية الحديثة. وبعد الاطلاع على نتائج 
الدراسات في حقل اللسانئيات الصيئية» ونتائج الأبحاث المتعلقة بترميز 
الكلمات الصينية في حقل اللغويات الحاسوبية الصينية» تم الاستعانة بقاعدتين 
أساسيتين في عملية تحديد نوع الكلمات الصينية؛ الأولى تحديد نوع الكلمسة 
بصورة كاملة بناءً على وظيفتها النحوية داخل الجملة. والثانية تحديد نوع 
الكلمة بشكل تقريبي من حيث درجة الدقة. 
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ومن أجل ذلك» تم استخدام نظام متعدد المستويات لتحديد نوع الكلمة 

على سبييل المثال» أول مستوى من مستويات ترميز الاسم هو استخدام 
الرمز "5' ثم يتم تصنيف الاسم بعد ذلك إلى خمسة أنواع فرعية هي اسم 
العلم» والاسم العام» واسم الزمان: واسم المكان» واسم الموقع. 

وقد تم تصميم مجموعة من الرموز الخاصة لترميز عدد 85 نوعًا من 
أنواع الكلمات الصينية. 

ومن أجل إتمام عملية ترميز المادة اللغوية استخدمت أدوات الترميز 
وتمييز الكلمات المتاحة في نظام 00185. وبعد انتهاء الترميز الآلي» تم عمل 
مراجعة بالمجهود البشري لنتيجة ترميز مليوني رمز صيني. ومن أجل تهيئة 
ذخيرة الدراسات الصينية الحديثة لخدمة الباحثين في حقل اللغويات الصينية» 
تم تطوير واجهة تطبيقية بها إمكانات بناء ذخيرة؛ واستعلام؛ وإحصاء؛ وما 
إلى ذلك. 

باستخدام المستوى الأول من الذخيرة يمكن عمل استعلام عن سلاسل . 
الرموز الواردة في الذخيرة» وباستخدام المستوى الثاني من الذخيرة يمكن 
البحث باستخدام الكلمة أو نوع الكلمة أو المعلومات الإحصائية» على سبيل 
المثال الاستعلام عن الجمل التي تحتوي نوعًا معينا من الكلماتء ويمكن . 
أيضمًا الاستعلام عن نوع معين من التعبيرات اللغوية» بالإضافة إلى عرض 
النتيجة بأكثر من صيغة. 
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خامسا: الذخيرة اللغوية الصينية ذات المعالجة الدقيقة 

الذخيرة اللغوية الصينية المُعَالَجةَ بدقة هي مشروع مركزي تم تمويله 
من الحكومة الصينية في مجال العلوم الطبيعية؛ وعنوانه الفرعي هو 
'نظريات البحث في الذخائر اللغوية ومنهجياته وأدواته'. والهدف من هذا 
العنوان الفرعي هو إنشاء سلسلة من الذخائر اللغوية الصينية التي تمت . 
معالجتها جِيداء والهدف من هذه السلسلة من الذخائر هو التوصل إلى إصدار 
عدة مؤلفات تحمل العناوين الآتية: (توحيد معياري لطرق تمييز الكلمات في 
ذخائر اللغة الصينية الحديثة)» و(توحيد معياري لترميز الكلمات في اللغة 
الصينية الحديثة)» و(مبادئ اختيار المادة اللغوية وتوزيعها داخل الذخيرة). 
وفي النهاية» تم الحصول على ذخيرة متوازنة مكونة من مليوني رمز صيني 
1 (لا تشمل علامات الترقيم)» وتم إجراء عمليات تمييز لحدود الكلمات بداخلهاء 

وعمل ترميز لأنواع الكلمات وبعض المعلومات النحوية» هذا بالإضافة إلى 

ذخيرة خام مُعْتمدة يصل حجمها إلى ٠‏ مليون رمز صيني. 

والنتيجة التي حققتها هذه الذخيرة يمكن أن تكون واجهة تطبيقية يُعْتَمَد 
عليها وتتمتع بموثوقية في الدراسات المتعلقة بالنحو والصرف في اللغة الصينية 
الحديثة» ومن ثم يكون لها مغزى مهمّ في الدراسات العلمية القائمة على تعليم 
اللغة الصينية» واللسانيات الصينية: ومعالجة المعلومات باللغة الصينية. 


١‏ - اختيار المادة اللغوية للذخيرة 
أ) المبادئ المُتبعة في اختيار المادة اللغوية 


تم الالتزام بالمبادئ التالية فى أثناء اختيار المادة اللغوية 
لم الؤلدوام في ر 
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أن تكون المادة التي يتم اختيارها تنتمي إلى فترة تسعينيات القرن 
العشرين (مع جزء صغير في فترة الثمانينيات) بحيث يمكنها أن تعكس 
ملامح اللغة الصينية المعاصرة. 

أن تكون وحدة اختيار المادة اللغوية هي النصوص الكاملة؛ وذلك من 
أجل الحفاظ على معلومات النص كاملة. 

أن يكون المعيار الأساسي في جمع المادة هو النصوص موزعة على 
الأساليب اللغوية المختلفة» والمعيار الفرعي هو التوزيع حسب المجالات؛ 
حيث إن الأسلوب اللغوي يسبق المجال. اللغوي من حيث الأهمية. 

أن تركز المادة اللغوية التي تم جمعها على المستوى التحريريء 
بالإضافة إلى المواد الشفهية التي يمكن تدوينها فى كتبء مثل نصوص 
المسرح. والتسجيل الصوتي للحوارات»؛ والتسجيل الصوتي للمحاضرات وما 
إلى ذلك. وقد تم تمثيل المواد اللغوية الأدبية بنسبة أكبرء حتى يمكن زيادة 
مقدار اللغة الشفهية ولغة الاستعمال اليومي بصورة مناسبة؛ وذلك من أجل 
. تجنب أن تتجه الذخيرة إلى الاقتصار على اللغة التحريرية البحتة. 

ألا تتضمن المواد اللغوية مطبوعات من مناطق هونج كونج» 
ومكاوء وتايوان. 

ب) تفاصيل توزيع المادة اللغوية 

تم تقسيم المادة اللغوية حسب الأسلوب اللغوي إلى أربعة أنواع من 
النصوص هي: نصوص أدبية» ونصوص صحفية؛ ونصوص علمية» 
ونصوص تطبيقية» وقد وصل حجم تلك النصوص إلى مليوني رمز صيني. 


181 


وقد تم توزيع كل نوع من تلك النصوص كما يلي: 


الأدب: 
(١‏ الروايات (ويشمل القصص العامة. والقصص العاطفيةء وقصص 
الخيال الظمس + والقصمن البولنسية). 


؟) النثر (ويشمل نصوصا متفرقة» ومقالات قصيرة متنوعة وما إلى ذلك). 
*) المذكرات (وتشمل السير الذاتية). 

( أدب التقارير. 

5) المسرحيات (وتشمل الحوارات؛ والخطب). 

الأخبار: 

)١‏ التقارير الإخبارية (وتشمل السياسة؛ والاقتقصادء والشئون 


العسكرية» والصناعة؛ والزراعة» والتجارة» والعلوم والتكنولوجياء 
والرياضة وغير ذلك من المجالات). 


(١‏ النقد الاجتماعي والتعليقات. 

'') الحياة الاجتماعية والترفيه (وتشمل السياحة؛ والطهوء والأزياء؛ 
والفنون؛ والعادات وغيرها). 

المؤلفات العلمية (وتشمل العلوم الاجتماعية والإنسانيات). 

النصوص الوظيفية (بما في ذلك الإعلاناتء والإخطارات»: 


والمراسلات» والتقاريرء والعقود, ومذكرات التفاهم» وكتالوجات المنتجات» 
وغير ذلك من المطبوعات غير الرسمية). 
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للاطلاع على التوزيع التفصيلي للمادة اللغوية انظر الجدولين »15-١‏ 


.١ا1-5و‎ 


اللخ 


جدول (؟١-15١):‏ معلومات إحصائية عن توزيع المادة 


للغوية بالذخيرة الصينية ذات المعالجة الدقيقة 


0 


0 00007) 
عدد عدد 1 عدد م 
التصنيف 20 ان النسبه علامات 1 النسبكة 
لنصوص موز ا تت 
-_- ظ الترقيم.. | 
الأدب 1 لاه. مم | 9055 | مك1١‏ | لالءكلا | 901 
١ 03‏ 
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الإجمالي م16 مك5 9١ ١5144 5550| ٠٠٠١|‏ 
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ََ 
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؟ - نطاق تمييز الكلمات 

عند وضع حدود الكلمات الصينيةء تم مراعاة النقطتين التاليتين: 

أ- الاستقرار على منهجية وضع حدود الكلمات على أساس الأبحاث 
واسعة النطاق التي أجريت على تمييز الكلمات الصينية. 

-١‏ الاستفادة من النتائج السابقة في هذا المجالء؛ وعلى الأخص 
الاستعاتة بنتائج الأبحاث في مجال اللغويات الحاسوبية واللغوينات 
الصينية؛ والسعي قدر الإمكان إلى التوافق مع المعايير الصينية 
القومية التي تم نشرها من قبل فيما يتعلق بهذا الأمر. ولكن مع 
مراعاة أن يكون لنظام التمييز الجديد سماته الخاصة. 

؟- عمل دراسة متخصصة عن مجموعة الرموز الخاصة التي تحمل 
لبسا لغويًا في عملية التمييز. وقد تمت مراجعة النتائج التي تصل 
إلى مليونوحمسمائة ألف .رمن صيني فن خلال اأعتسر البنشري 
عن طريق سبعة طلاب للدراسات العليا؛ حيث تم رصد سبعمائة 
وعشر ألف رمز صيني من بين العدد الإجمالي للرموز لم يحدث 
لها تمييز بشكل مُوَمّد. وقد تم عمل تحليل يدوي لهذه الوحدات 
اللغوية التي التَبْست على الآلة. ومن نتيجة الأبحاث نكتشف أن عدم 
ورج الجدوة الفاضلة بين ' الكلنات و التدويراك الللعويتة بتر كسد 
أساسًا في عدم وضوح الحدود بين الكلمات ثنائية وثلاثية المقضع 
في اللغة الصينية» أما من ناحية الوظيفة النحوية فيتركز عدم 
الوضوح بشكل أساسي في التراكيب الاسمية والفعلية. 7 
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*- اتباع منهجية تطبيق عمليات التمييز بالتوازي مع إجراء 
التصحيحات على النتائج» بغرض التوصل إلى معيار دقيق لتمييز 
الكلمات يتمتع بتغطية أكثر شمولاً. وقد كان تحديد المعايير القياسية 
لتشيز الكلمات ل يتم بسورة سماء .يل اتبكات: التعدرين علد 
أساس التوزيع الحقيقي للمادة اللغوية داخل البيئة اللغوية الواقعية. 

ب- تبني الإجراءات الضرورية لضمان تمييز قياسي وموحد لتمييز 
الكلمات. : 

-١‏ اتخاذ قرارات مُلّزِمة بشأن الوحدات اللغوية التي تحمل لبا لغويًا 
لمدة طويلة بين المتخصصين. على سبيل المثال» التركيب الإضافي. 
المكون من رمزين إلى أربع رموز صينية بالصيغة "اسم + تدخ 3 
و'قعل + اسم" إذا كان طول أحد عناصره رما وتلهذا لايتم 
تقطيعه إلى وحدات أقل. 

؟- العديد من العناصر الدقيقة المكوّنة للمعيار تَُمْتَخدم خصيصى 
باعتبارها كلمة أو عدة كلمات. عل سبيل المثال الرمز "كلد* الذي 
يعني 'نصف”" عندما يعبر عن عدد مستقل يتم تمييزه على أساس أنه 
كلمة» مثل: 

جررعدا" 
علد / جرس 


)١(‏ كلمة "7" وحدة قياس صينية للوزن تساوي 2٠٠‏ جرام. (المترجم) 


5ظ1 


بمعنى: 

نصف / نصف كيلو (ربع كيلو) 

واحد / نصف كيلو / نصف (كليو إلا ربع) 

إلا أن الوحدات التالية التي تحتوى الرمز "كد" يتم تمييزها على أنها 
كلمات متعددة المقطع؛ ولا يمكن تقسيمها إلى وحدات أصغر خلافا للمثشالين 
السابقين» مثل: 

وبالخلاع2- .رارك 2- .ىال تلاع2 .,العه8 ..الغة 2 ..,إزغله- 
“- معابير ترميز تصنيف الكلمات 

إن المعايير التي تم اعتمادها لترميز تصنيف الكلمات تشمل عدد كلدل 
علامة؛ من بينها عدد 10 علامة لترميز تصنيف الكلمات؛ وعدد 4؟ علامة 
لترميز علامات الترقيم. وقد تم اتباع نظام متعدد المستويات لاستخدام 
العلامات الخمس والتسعين لترميز تصنيف الكلمات؛ على أن يكون أكبر قدر 
من المستويات هو ثلاثة مستويات» مثل: 1م5'"» فالعلامة "8" تمثل المستوى 
الأعلى» وتشير إلى الاسمء أما العلامة ”م” فتشير إلى المستوى الأوسطء وتعني 
تصنيفا فرعيًا للاسم وهو اسم العلم؛ أما العلامة ' فتشير إلى المستوى الثالث» 
وتعبر عن اسم علم أجنبي» يختلف عن أسماء الأعلام اليابانية والكورية 
والصينية التي تتبع الأسلوب :الصيني في تسمية الأعلام الشخصية. 

ويستعين المستوى الأعلى من العلامات عدد 7١‏ علامة؛ منها العلامة 
"5" التي تشير إلى الاسمء والعلامة "”” التي تشير إلى الفعل؛ والعلامة "8" 
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التي تشير. إلى الصفة» والعلامة ”" التي تشير إلى الكلمات المعبرة عن 
الحالة» والعلامة "5" التي تشير إلى التمييزء والعلامة "6" التي تشير إلى اسم 
الزمان» والعلامة "5" التي تشير إلى اسم المكان» والعلامة ' التي تشير إلى 
اسم الموضعء والعلامة "5" التي تشير إلى الأرقام» والعلامة "4" التي تشير 
إلى الكلمات الكمية»ء والعلامة "4" التي تشير إلى الظرفء والعلامة "©" التي 
تشير إلى الضمائرء والعلامة "0" التي تشير إلى الكلمات الصوتية؛ والعلامة 
©" التي تشير إلى كلمات التعجبء والعلامة '" التي تشير إلى حروف 
العطفء والعلامة "م" التي تد إن لوكا الخزنه اناه الت لبتي 
إلى الكلمات المساعدة» والعلامة "لز" التي تشير إلى كلمات اللهجة» والعلامة 
"1" التي تشير إلى الكلمات الاعتراضية» والعلامة "ل" التي تشير إلى الأمثال؛ 
والعلامة "6 التي تشير إلى اللواحق» والعلامة "*" التي تشير إلى الأرقام 
العربية والحروف الإنجليزية. 
وقد تميزت المعايير المُنْتَخْدَمة في ترميز تصنيف الكلمات الصينية 
بالخصائص التالية: 
أ) الاهتمام الشديد بالنقاط الصعبة في ترميز تصنيف الكلمات. فعندما 
يتم وضع رمز لنوع الكلمة داخل الذخيرة يمكن بصورة عامة 
مواجهة الحالات التالية: 
-١‏ الكلمات التي تتمتع بثبوت المعنى وأحادية الوظيفة النحوية لا 
يحدث تجاهها ازدواج في وضع الترميزء ويصبح من السهل 
الاستدلال على الفئة التي تنتمي إليها ووضع الرمز الخاص بها. 
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؟- الكلمات ذات الازدواجية النحوية التي لها وظائف نحوية مختلفة؛ 
التي تمثل اختلافات دلالية كبيرة (بما في ذلك الكلمات المتفقة فسي 
الشكل) يمكن أن ينطبق عليها معياران أو أكثر من معايير الترميز. 

*- هناك قدر من الكلمات على الرغم من عدم اتفاقها في الوظيفة 
<< النحوية» فإن هناك اختلافًا حول مدى اعتبارها كلمات ثنائية 

التصنيف. 


؛- يمكن إدراج الكلمة تحت تصنيفين أو أكثر مسن وجهة النفر 
النحوية أو الدلالية؛ ولكن من الناحية العملية لا يمكن أن يتم 
إدراجها تحت تصنيفين؛ مثل الصفات والأفعال اللازمة. 

5- الكلمات التي لا يوجد اتفاق حول وظيفتها النحوية» ومن الصعب 
العثور على تصنيف مناسب لها. ش 

1- فئات أخرىء بما في ذلك المشكلات التي تنشأ من تمييز الكلمات» 
والاستخدام المؤقت للكلمات وما إلى ذلك. وتتركز الصعوبات 
الخاصة بترميز أنواع الكلمات بشكل أساسي في النقاط الأربع 
الأخيرة؛ مثل الصفات وحدود الأفعال اللازمة؛ والتمييز بين كل من 
الكلمات والظروفء وبين كل من الأسماءء والأفعال» والصفات» 
وغير ذلك من مشاكل تمييز الأنواع النحوية للكلمات. لأنه عند 
وضع المعايير القياسية للترميز يتم الانتباه بشدة إلى هذه الأنواع. 

ب) هناك جزء من الكلمات تم عمل ترميز متعدد المستويات لهاء 
الأمر الذي يسهل عملية تقديم المعلومات الخاصة بترميز تصنيف 
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الكلمات» تلك المتعلقة بعدد من الدراسات الخاصة: بالإضافة إلى 
إمكانية إجراء بحوث متخصصة عن بعض أنواع الكلمات التي لها 
تمثيل ضعيف داخل الذخيرة. 

ج) البحث الدقيق عن أسماء الأعلام: وبصورة خاصة أسماء 
الأشخاص؛ حيث يتم تمييزها بصورة دقيقة» وتقديم معلومات وافية 
وغنية عن الاسم وطرق التعرف عليه. | 

د) الترميز الجزئي للمعلومات النحوية. تتركز تلك المعلومات بصورة 
أساسية في الجزء المتعلق بالفعل داخل الجملة (فالصفة التي يكون 
لها موصوف يتم ترميزها على أنها فعل). وهكذا يمكن عمل 
دراسات متخصصة متعلقة بالفعل مثل بعض التعبيرات اللغوية التي 
يمكن التعامل معها من زاوية التعدي أو اللزوم؛ ويمكن أيضًا عمل 
بعض الدراسات المتعلقة ببعض الأنماط الخاصة للجمل. 

ه) إعطاء علامات خاصة لبعض الكلمات التي لها نسبة تكرار 
مرتفعة» من أجل تسهيل عمل دراسات متخصصة حولها. 


4 - ضمان مستوى الجودة في معالجة الذخيرة الصينية 


إن مرحلة معالجة الذخيرة من حيث تمييز حدود الكلمات وترميزها 


نحويًا يتم تنفيذها آليّا؛ ولكن على أساس أن يتم عمل مراجعة بالطاقة البشرية 
لنتيجة التمييز والترميز؛ حيث تَعْتَبّر المراجعة البشرية للنتيجة من أهم 
مراحل العمل في الذخائر اللغوية بصورة عامة. 
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إن المراجعة البشرية لنتيجة معالجة الذخائر اللغوية يتضمن مجالين 
أساسيين هما: عملية تمييز الكلمات وعملية تحديد أنواع الكلمات. فأكثر 
المشكلات ظهور! في مرحلة تمييز الكلمات في الذخيرة هي عدم التوحيد في 
عملية تمييز الكلمات التي تتكون من مقاطع متشابهة» أما أكثر المشكلات 
ظهورا في عملية ترميز الأنواع النحوية الكلمات فتتمتل في أن يكون هناك 
تشابه تام بين الشكل والوظيفة النحوية ومعنى الكلمة؛ ويؤدي ذلك إلى عدم 
توحيد في عملية الترميز. 

وهذا النوع من المشكلات يتم مراجعته على مستويات منفصلة وفقا 
لطبيعة كل مشكلة؛ بالإضافة إلى أن كل مرحلة يتم فيها اتباع وسائل مختلفة 
بهدف الوصول إلى قرار مومّد بشأنها. 
١‏ - مراجعة تمييز الكلمات 

تنقسم عملية مراجعة تمييز الكلمات إلى مرحلتين: الأولى يتم فيها 
قراءة تتبعية للنص» يصاحبها قراءة تتبعية للمفردات التي تم تمييزهاء 
والخطوة الثانية يتم فيها كتابة برمجية استعلام عن الكلمات المتفقة من حيث 
التقسيم» بغرض استخراج جميع الحالات التي تمثل لبسا في عملية التمييزء 
واستخدام ذلك في عمل مراجعة تفاعلية مع قائمة المفردات المستخرجة. 
* - مراجعة الترميز النحوي للكلمات 

تنقسم عملية مراجعة الترميز النحوي للكلمات أيضا إلى مرحلتين» 
المرحلة الأولى يُتبّع فيها عملية القراءة التتبعية للنص بالتوازي مع القراءة 
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التتبعية للكلمات وترميزها. أما المرحلة الثانية فبغرض التغلب على مشكلة 
التوحيد في معايير تمييز الكلمات في أثناء مراجعة نتيجة تمييز الكلمات» فإن 
فريق إنشاء الذخيرة كان في حاجة إلى تكوين قائمة تضم جميع الكلمات 
المكونة للذخيرة وعلامات الترميز المستخدمة؛ وذلك من أجل عمل مراجعة 
تفاعيلة لمراجعة نتيجة ترميز أنواع الكلمات. وبذلك يمكن تجنب وضع 
علامات مختلفة للوحدات اللغوية نفسها. 

وهذه الذخيرة من المنتظر رفعها على شبكة المعلومات لخدمة أكبر 


عدد من الباحثين. 
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الباب الخادث 
معالجة الذخائر اللغوية وتقنفيات إدارقها 
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الفصل الأول 
الاستعلام داخل الذخائر اللغوية وتطبيقاته 


بعد الانتهاء من بناء الذخيرة اللغوية» يتم عرضها للاستخدام من قبل 
جميع الباحثين؛ بغرض تمكينهم من التعامل مع مضمون الذخيرة» وإجراء 
عمليات التحليل للظواهر اللغوية الواقعية الموجودة في مادتها اللغوية. لذلك 
فإن أبسط ما يمكن أن تُقدمه الذخيرة اللغوية للمستخدم هو أدوات الاستعلام 
عن المواد اللغوية داخل الذخيرة. 


أولاً: الاستعلام الإحصائي السياقي عن الكلمات 

عادة ما تلجأ الذخائر اللغوية المُمَيُكنة إلى أسلوب الاستعلام الإحصائي 
السياقي عن الكلمات "0800886" لتقديم المعلومات الإحصائية المتعلقة 
بالسياقات التي تظهر فيها كلمة معينة داخل متن الذخيرة. وتسّجّل البرامج 
المختصة بالاستعلام الإحصائي عن سياقات الكلمات موقع الكلمة موضع 
البحث في كل مرة ظهرت فيها داخل الذخيرة» وبناءً على ذلك يمكن تقديم 
المعلومات السياقية المتعلقة بتلك الكلمة. وهذه المعلومات يمكن أن تظهر 
مباشرة على شاشة الحاسب أو يتم حفظها في ملف معين. وهذا الملف الذي 
يثم حفظه يُطلّق عليه اسم ملف الإحصاء السياقي للكلمات " عع5ةل"1معهم» 
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وقبل عمل استعلام إحصائي عن سياقات الكلمات؛ تكون هناك حاجة 
لبناء فهرس لكل كلمة من كلمات الذخيرة: يُسَجّل في هذا الفهرس موقع هذه 
الكلمة داخل النص في كل مرة من مرات ورودهاء ثم يتم إعادة فهرسة ملف 
البيانات هذا وفقا للأنماط الجديدة التي يحتويها؛ وذلك من أجل تسهيل عملية 
البحث في داخله؛ كأن يتم بناء الجدول المفهرس لل ذخيرة وفقًا للترتيب 
الأبجدي لكلماتها. وبذلك يُمكننا في أثناء عمل الاستعلام عن سياقات الكلمات؛ 
الحصول بسهولة عن السياقات التي وردت فيها الكلمة موضع البحث. 

إن أبسط ما يُقدّمه البحث الإحصائي عن سياق الكلمة هو الاستعلام 
بموضع الكلمة؛ حيث يُقَدّمم هذا الاستعلام عرضنا مُفَهْرَسا لموقع الكلمة محل 
البحث في كل مرة وردت فيها. داخل النصء بالإضافة إلى إمكانية تقديم 
إحصائية عن معدل ظهور هذه الكلمة داخل الذخيرة بأكملها. وهناك نوع 
اخررفن الواح الاستعلام السياقي هو الاستعلام عن السياقات التي ترد فيها 
كلمةٌ ما داخل الذخيرة؛ حيث يقنم السياقات التي ترد فيها الكلمة موضع البحث. 
-١‏ الاستعلام عن كلمة مفتاحية داخل السياق 

أهم نوع من أنواع الاستعلامات وأكثرها شيوعًا هو الاستعلام عن 
كلمة مفتاحية داخل السياق هه نط 1104 وع26" والذي يطلق عليه 
اختصارا اسم 321810. وفي ذلك الاستعلام تظهر الكلمة السُْتَعلّم عنها في 
منتصف كل سطرء وقبلها وبعدها مسافة» ويلي كل مسافة منهما سياق نصي 
بعدد من الكلمات يمكن التحكم في طوله. وفي هذا الأسلوب من أساليب 


م 
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العرض تتراص الكلمات موضع البحث في كل سطر مُكوّنة عمودًا رأسيًا 
ظاهر! للعيان. ويُظهر الشكل ١-7‏ استعلامًا عن كلمة "ول" يسبقها ويليها ٠‏ 


سعط) 1ه عده نزأمه 01111 320 تاأاتاء2 01 
5 عط متللعالمط ‏ 5ز عط ع سعط صدمناهء21تاتسترم 


(فانلئفكت 

عط) طعنامضء ول]إلاط0 5[ 211 عط ووعع1"0م ع01ط 
11210 : 

نك إناناياك لاق 5آ لتقطءصة علط مت ععلمعم 

لصة أكة] 
عط لع ؟7ألاعة [لطولط ‏ 5آ متقعط علط عاعمع)ذ1! 2010م 
«طندد للهقتدد 2 لاإلصه 15 اأعنصتط) دتمم تأستاتمسسمىء قط 
مملاءع؟ 116 


شكل :)١1-*(‏ نتيجة البحث السياقي 121710 عن 
كلمة "45" في اللغة الإنجليزية 
كما يمكن تعديل طول السياق المصاحب للكلمة من جهة اليسار وجهة 
اليمين حسب الحاجة؛ حيث يمكن زيادة أو نقصان عدد 5 كلمات من جهة 
اليمين أو اليسار. وهناك بعض أدوات الاستعلام الحاسوبية يمكنها توسيع ما 
يُعْرض في نتيجة الاستعلام لتستخرج كامل الجملة أو الفقرة التي وردت فيها 
الكلمة موضع الاستعلام. 
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؟- الترتيب المُفهؤرس للأسطر 

هذا النوع من الاستعلام له عدة أشكال؛ الشكل الأكثر شيوعًا هو: 
ترتيب الطان المُستَعلَم عنه وفقًا لترتيب ظهوره داخل الذخيرة» أو ترتيب 
السطر المُسْتَعْلم عته وفقًا للترتيب الأبجدي لكلماته. على سبيل المثال» ترتيب 
نتيجة البحث حسب الترتيب الأبجدي للكلمة التي تأتي يمين الكلمة المفتاحية. 
ري ا تستدعيها الكلمة المفتاحية؛ التي 

تغتبر في تلك الحالة هي الكلمة المركزية التي تدور حولها عملية البحث. 
وهناك طريقة ة أخرى للترتيب هي فهرسة الأسطر حسب الترتيب الأبجدي 
لآخر حرف في الكلمة المجاورة للكلمة موضع البحث من جهة اليسار. وما 
إن تكون الكلمة المفتاحية فعلا من حيث التصنيف النحوي» حتى يمكن لهذه 
الطريقة في البحث أن تعثر وبسهولة على الفاعل في كل جملة؛ ومن تم 
يمكن تقديم بعض الخيوط التي من شأنها أن تساعد في التعرف على عملية 
الاقتران الإسنادي وعناوين النصوص. كما يمكن الحصول على الفهرسة 
حسب الكلمات الواقعة يمين الكلمة موضع البحث ويسارها؛ حيث يتم وضع 
الكلمات المصاحبة للكلمة موضع البحث معًا حسب أكثرها تواتراء وفذه 
الطريقة من طرق إظهار نتيجة الاستعلام لها اس تخدامات عظيمة في 
الدراسات التي تبحث في قواعد التصاحب اللغوي بين الكلمات. 

وبالنسبة إلى الكلمات ذات معدل التكرار الأعلى داخل الذخيرة» يمكننا 
أيضًا اللجوء إلى أسلوب الاستعلام من خلال العينات لتقليل نطاق العينات 
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المستخدمة في الاستعلام. على سبيل المثال؛ عند الاستعلام عن كلمة معينة 
يمكنتا ضبط الرقم الاسترشادي للاستعلام على ١٠؛‏ بحيث يتم الاستعلام مرة 
كل عشرة أسطرء وبذلك يمكن أن نقلّص نتيجة الاستعلام بنسبة العشر عن 
النتيجة نفسها إذا أَجْرِيّت دون هذا التدخل. 

وفي اللغة الإنجليزية» يمكننا استخدام علامة النجمة * للاستعلام عن 
الكلمات التي لها علاقة بالأصل الاشتقاقي لكلمة معينة. مثل البحث بالصيغة 
0605 فتكون نتيجة الاستعلام هي: ,طمهومع0)0ظطم ,مامطام 
تطمقعع0)ه0طم ,«#عطموععه0:0طم وغيرها من الكلمات المو لدة من الكلمة 
الأساسية موضع البحث بالإضافة إلى الأسطر التي احتوت سياقات لها. كما 
يمكن أيضمًا الاستعلام باستخدام اللواحق النحوية والتعرف على بعض الكلمات 
الخاصة وخصائصها النحوية. على سبيل المثال» استخدام صيغة الاستعلام 

*" لسرد جميع الكلمات التي تحتوي اللاحقة "عمل" واستخدام الصيغة 
8" 0 عن الجمل الاستفهامية. 

استخدام المنطق المركب وصيغة "«/ط)1؛: للاستعلام عن السياقات 
التي تفصلها كلمات معينة لها علاقة بالكلمة موضع البحث سواء كانت 


تعبيرات لغوية أو جزء من جملة. 


ثانيًا: تطبيقات الاستعلام بالكلمة داخل الذخائر اللغوية 
تيح الإستعانة بالقدرات الهائلة للحاسب الالي في الحساب ومعالجهة 
المعلومات» تُتيح للمستخدم الاستفادة من برمجيات الاستعلام عن الكلمات في 
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استخراج المحتويات التي يرغب في الحصول عليها من الذخيرة؛ بالإضافة 
إلى مراقبة تلك الكلمات داخل البيئة اللغوية المصاحبة لهاء أو إجراء دراسات 
مقارنة عن الظواهر اللغوية المتعلقة بها. إن هذا النوع من التطبيقات القائمة 
على الذخائر اللغوية له قيمة هائلة» ويتمتع بقدرة تطبيقية واسعة النطاق تزداد 
يومًا بعد يوم في مجالات الأدب وعلم اللغة» وتعليم اللغات وأنظمة معالجة 
اللغات الطبيعية» بالإضافة إلى ما حققه بالفعل من نتائج مذهلة حتى الآن. 
وفيما يلي قائمة بمجالات التطبيق سالفة الذكر!23ا. 
١‏ - التطبيقات في مجال الأدب 

يتمثل ذلك في بناء ذخائر لغوية للأعمال الأدبية المشهورة؛ وإنشاء ملفات 
مفهرسة قائمة على تلك الذخائر. وتُستخدم ملفات الفهرسة على نطاق واسع في 
مجال الدراسات الأدبية؛ حيث تقدم بيانات مثالية للتعرف على خصائص أعمال 
أحد الأدباء أو الشعراء» وطرق استخدامه للكلمات وأسلوبه اللغوي. 

إن إنشاء ملف مفهرس عن الأعمال الأدبية وإتاحته للاستخدام من قبل 
علماء اللغة يُمَكَنْهُم من دراسة خصائص أسلوب أدبي معين في الكتابة؛ فعلى 
سبيل المثال» من خلال إنشاء ملف مفهرس للأعمال الأدبية لشكسبيرء يمكننا 
أن ندرس الصيغ المختلفة لضمير المخاطب في اللغة الإنجليزية مثل ( ,36 
مقط ونؤط) رع6) ملاوطغ ,5قنا30 ونام ,0ا0() ومجالات استخدام كل صيغة» 
ومن ثم يمكن طرح بعض الفروض الخاصة بعلم اللغة الاجتماعي وقياسهاء 
على غرار: من المتحدث؟ ومن المتحدّث إليه؟ وما ظروف الحديث 
وملابساته؟ وما إلى ذلك. وعلى سبيل المثال أيضاء يُمكننا عسن طريق 
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الأنتعلام بالكلمات أل تدرسن ظروفك استخدام يتَطن الكلمات الشعرف على 
اتجاهات تطور الاستخدام اللغوي على مدى مائتي عام من خلال دراسة لغة 
أعمال الشاعر الألماني جوته. فمثلا كلمة "108016" كانت تَسنَّخْدّم على نطاق 
واسع في شعر جوتة (©206106) إذا ما قورن ذلك باستخدامها في الأعمال 
الحديثة. وجميع الأنماط اللغوية الأخرى يمكن التعامل معها بمثل تلك 
الطريقة. كما يمكن عمل دراسات مقارنة للأعمال الكلاسيكية مع الأعمال 
الأدبية الحديثة» وعمل تحليل كمي لمثل تلك التغيرات التي تحدث للغة مع 
مرور الزمن. ويمكن أيضًا استخدام الاستعلام بالكلمة لعمل دراسات عن 
الكلمات وأنواعها والتراكيب النحوية داخل الأعمال الأدبية من خلال عدة 
زوايا للتحليل؛ وذلك بغرض التعرف على أوجه الاختلاف والتشابه بين 
أعمال الكتّاب في مراحلهم الإبداعية الأولى والمتأخرة» فضلاً عن دراسة 
أوجه الاختلاف والتشابه بين أساليب عدد من الكتاب؛ بالإضافة إلى تقديم أدلة 
قوية للحكم على مدى انتماء بعض الأعمال الأدبية لفترات معينة من فترات 
الإبداع الأدبي. 
؟- التطبيقات في مجال الدراسات اللغوية 

أشار ليتش (1,©»5:1992) إلى أن الأداة الأكثر بساطة وفاعلية 


والأكثر استخدامًا والقائمة على أساس حاسوبي هي الاستعلام عن الكلمات. 
وتتمثل التطبيقات النموذجية لذلك في: 


-١‏ الدراسات في علم المفردات: حيث يتم التوصل إلى مغزى الكلمات 
وما تحمله من معنى في سياق محددء بالإضافة إلى طرق استخدام 
تلك الكلمات من حيث القواعدء وطبيعة الأسلوب؛ والسياق وما إلى 
ذلك. 

؟- الدراسات النحوية التصنيفية: تمييز وتصنيف الأمثلة النموذجية 
المستخدمة في بعض المجالات من حيث النحوء والدلالة» والسياق» 
والأسلوبية. والذخائر اللغوية المُرَّمَّرَة صرفيًا ونحويًا هي أكشر 
الذخائر ملائمة لهذا الغرض. 

*- في مجال تعليم اللغات: في أثناء تأليف المواد الدراسية لتعليم اللغة 
الإنجليزية» قام بيبر (:8156) وآخرون عام ١194‏ بعمل دراسة عن 
الأساليب البلاغية التي تتكون من الاسم + صفة في اللغسة 
الإنجليزيةا"”!؛ حيث قاموا بعمل دراسة مسحية عن شرح هذا 
التركيب في عدد من المؤلفات في قواعد اللغة الإنجليزية في فقرة 
ثمانينيات القرن العشرينء واكتشفوا أن غالبية هذه المؤلفات النحوية 
تهتم بهذه العلاقة بصورة ملحوظة:؛ لدرجة أن شرح هذه القاعدة قد 
وصل إلى ٠١‏ صفحة. أما النصوص التي تتناول التركيبات البلاغية 
المكونة من اسم + تعبيرة وصفية من جار ومجرور فقد كان عددها 
أقل نسبيًا؛ حيث لم يتجاوز إجمالي عدد صفحاتها خمس صفحات. 

أما برمجية الاستعلام بالكلمة التي استخدمت في ذخيرة لوب وذخيرة 

أَكَوَق مها ننافة وإخيينة ,عر ألف كلفة قن متجال المواسلاك اللخصية 
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فقد بَيّنتت أن عدد مرات ظهور التركيبات الوصفية باستخدام الصيغة اسم + 
تعبيرة وصفية من جار ومجرور أكثر بكثير من التركيبات الوصفية باستخدام 
الصيغة اسم + تعبيرة وصفية من الصلة والموصول؛ حيث وصلت نسبة 
تواجد الصيغتين في كل ألف كلمة على التوالي 907,5 مقابل 905,5, 
بالإضافة إلى أن هناك دراسات قد أثبتت أن تركيب الاسم + التعبييرة 
الوصفية من جار ومجرور تعتبر من التركيبات الصعبة التي تواجه الدارسين 
الأجانب للغة الإنجليزية. 

وهذا يشير إلى أن اهتمام القائمين على تعليم القواعد بظاهرة لغوية من 
عدم يدان /بأؤمة تحقيقية: حيلت لآ يتطايق تيم التواعد مع الحقائق اللغوب: 
الواقعية. وعند تأليف هذا النوع من المواد الدراسية لا ينبغي الاكتفاء بمراعاة 
درجة صعوبة الظواهر اللغوية وطرق تدريسهاء بل ينبغي التفكير أيضًا في 
ظروف الاستخدام الواقعي لهذه الظواهر في اللغة. على هذا الأساس فقد تم 
تأليف كتاب (كولينز كوبويلد لقواعد اللغة الإنجليزية) على أساس التوافق مع 
قدر كبير من الحقائق اللغوية الموجودة في ذخيرة كوبويلد. وقد استغل هذا 
الكتاب تقنيات الاستعلام داخل الذخيرة لتقديم قدر كبير من التراكيب النحوية 
وأمثلة واقعية حولها. 
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الفصل الثاني 
توظيف الإحصاء في علم الذخائر اللغوية 


تعتبر الذخائر اللغوية مصدرا مهما لإجراء التحليل الكمي للغة. إلا أن 
استخدام الإحصاء الكمي في علم الذخائر اللغوية ليس بالأمر الذي يمكن 
إجراؤه بسهولة داخل المادة اللغوية المُمَثّلّة لمتن الذخيرة. والتقنيات 
الإحصائية المستخدمة في هذه الحالة لا تقتصر على إجراء التحليل الرياضي 
للبيانات اللغوية المعقدة واستخراج القواعد المنظمة لتلك البيانات اللغوية 
فحسبء. بل يمكن استخدامها أيضًا في تفسير العلاقة بين كل من أسلوب 
الكتابة والتركيب اللغوي. 

ويقدم هذا الفصل أكثر الطرق الإحصائية قيمة واستخدامًا في علم 
الذخائر اللغوية /2ا. وفي هذا الجزء نُقَدْم تعريقا مختصرا! لأهم الطرق 
وأكثرها شيوعًا في علم الذخائر اللغوية؛ ونظرًا إلى عدم إمكانية حصر 
تفاصيل كل المنهجيات الإحصائية في هذا المقام؛ فسوف نكتفي بالحديث عن 
وسائل تطبيق تلك التقنيات الإحصائية في علم الذخائر اللغوية بشكل مبسط؛ 
على سبيل المثال؛ كيفية الاستخدام» والمغزى الحقيقي من اس تخدامهاء مع 
عدم التعرض للتفاصيل الدقيقة لتطبيقها. 


205 


أولاً: إحصاء معدل التكرار 


يُعتبر التعداد من أبسط الأعمال الإحصائية التي يتم تنفيذها على 
الذخائر اللغوية؛ بمعنى إجراء عملية عَد لعدد مرات ظهور بعض الظ واهر 
اللغوية في أنواع معينة من النصوص. والتوصل إلى عدد مرات ورود 
المداخل اللغوية داخل الذخيرة» يساوي الحصول على عدد مرات تكرار تلك 
المداخل في الذخيرة بأكملها. ففي اللغة الإنجليزية» قد تكون تلك المداخل 
كلمة؛ أو تركيبًا لغوبًا بعد حذف الإضافات الملحقة به أو نوعًا معينا من 
الكلمات؛: أما في اللغة الصينية فقد تكون تلك المداخل هي الرمز الصيني أو 
الكلمة الصينية. وسوف تكون الإشارة في هذا الفصل إلى الكلمة ما لم يكن 
هناك داع للإشارة إلى نوع آخر من المداخل اللغوية. تكون خطوات التعداد 
كما مان كل كلمة من الكلمات داخل الذخيرة يصورة متوالية:؛ وإذا 
كانت الكلمة قد ظهرت من قبل؛ يتم إضافة الرقمٌ ١‏ على عدد مرات ظهور 
هذه الكلمة» وإلا يتم إضافة هذه الكلمة إلى قائمة الكلمات المكررة؛ ووضع 
الرقم ١‏ أمامها. 

يُستخدم الرقم الذي تم التوصل إليه من خلال التعداد للإشارة إلى معدل 
تكرار الكلمات داخل الذخير بأكملهاء وهذا الرقم له استخدامات كثيرة في علم 
الذخائر اللغوية. فإذا تمت فهرسة قائمة الكلمات المستخرجة من الذخيرة وققًا 
لعدد مرات التكرارء يمكننا عمل دراسة عن ظروف توزيع المفردات داخل 
النصوص. على سبيل المثال» في نص تقنيء إذا نقص استخدام المصطلحات 
التقنية في منطقة معينة من النصء وزاد استخدام هذه المصطلحات فجأة فيما 


بعدء فإن هذه الملاحظة تشير بصورة خاصة إلى الحدود الفاصلة بين أجزاء 
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النص؛ بمعنى أن يكون ذلك إشارة إلى نهاية مقدمة النص» 0 
إشارة إلى مقدمة قد كتبها أحد الأشخاص غير المتخصصين. أما ترتيب قا 
الكلمات حسب الترتيب الأبجدي فيُسْتخدم بصورة أساسية في عمل قائمة 
مفهرسة لمفردات الذخيرة: وبذلك يمكن زيادة سرعة البحث عن الكلمات 
داخل الذخيرة؛ أما الترتيب التنازلي لقائمة المفردات حسب معدل التكرارء 
فيساعد في الدراسات القائمة على علاقة الأسلوب بالكلمات. وفيما يتعلق 
بمقارنة قائمة الكلمات ومعدل تكرارها على مستوى نوع معين من النصوص 
بمثيله على مستوى ذخيرة كبيرة» والتوصل إلى استخراج قائمة بالكلمات 
الأكثر تكرارا في الذخيرتين؛ فيشير إلى أن تلك القائمة من الكلمات تتمتع 
بقدر من الثبات في الاستخدام. ويساعدنا في استبعاد تلك الكلمات ذات معدل 
التكرار الأعلى» وبالتالي تخمين الكلمات المفتاحية لنوع معين من 
القند 


ثانيًا: النسبة 
النسبة التي تحتلها كلمة معينة داخل الذخيرة يُقصد بها عدد مرات 
ظهور الكلمة داخل الذخيرة مقسومة على العدد الإجمالي لمجموع تكرارات 


)١(‏ على سبيل المثال إذا كان لدينا نص متخصص في مجال البيئة» وحصلنا على جدول 
تكراري تنازلي عن كلمات هذا النصء وعقدنا مقارنة بين مجموعة الكلمات الأعلى 
من حيث عدد مرات التكرار والكلمات المقابلة في ذخيرة أخرى عامة» وقمنا باستبعاد ٠‏ 
تلك الكلمات الأعلى من حيث التكرار من الجدول التكراري للنص المتخصصء فإن 
ما يتبقى من كلمات يُمَتْل بداية للتعرف على الكلمات المفتاحية التي تَستّخْدْم في مجال 
البيئة. (المترجم) 
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كلمات الذخيرة بالكامل. وعلى الرغم من أن تعداد مرات التكرار يُعتبر . 
طريقة فعالة للمعالجة الكمية للبيانات داخل الذخيرة» حيث إنها من الطرق 
المستخدمة دائمًا في الدراسات القائمة على ذخائر لغوية» فإن هذه الطريقة 
تشوبها بعض أوجه القصور. على سبيل المثال» تظهر أوجه قصور هذه 
الطريقة عند مقارنة مجموعتين من البيانات. فإذا أردنا الآن أن نقارن بين 
ذخيرتين إحداهما شفهية والأخرى تحريرية في اللغة الإنجليزية» فإن قائمة 
المفردات الخاصة بهاتين الذخيرتين ومعدل تكرار الكلمات بكل منهما يسجل 
عدد مرات ظهور كل كلمة في المجال اللغوي الطبيعي الذي خرج منه 
الإحصاء. وعندما يكون نطاق الذخيرتين غير متطابق من حيث الحجم؛ فمن 
الصعب الوثوق بجدول التكرار هذا لعمل المقارنة. وعلى الرغم من أن عدد 
مرات ظهور كلمة من الكلمات داخل إحدى الذخائر قد يكون أكبر من عدد 
المرات في الذخيرة الأخرىء فمن المحتمل أن تكون نسبة وجود هذه الكلمة 
في الذخيرة الأولى أقل من نسبة وجودها في الذخيرة الثانية. لو فرضنا أننا 
نقارن بين ذخيرتين للغة الإنجليزية أحدهما شفهية وتتكون من خمسين ألف 
كلمة» والثائية تحريرية وتتكون من خمسمائة ألف كلمةء وكان عدد مرات 
تكرر كلمة "5004 في الذخيرتين هو 2.6٠0 :5٠‏ مرة على التوالي. فلو نظرنا 
من ناحية عدد مرات التكرار نجد أن كلمة "5004 قد تكررت في الذخيرة 
التحريرية أكثر من عدد مرات تكرارها في الذخيرة الشفهية» إلا أن الحقيقة 
ليست كذلك. والآن دعونا نحسب نسبة ظهور كلمة "700" في الذخيرتين 
على السواء: 
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اللغة الشفهية: 9١0,١ -5.٠.٠../5٠‏ 
اللغة التحريرية: 900,١ -5.....0/5.٠‏ 
ومن الواضح أن كلمة "5004 لا يزيد معدل تكرارها في اللغة 

التحريرية بمقدار عشرة أضعاف كما يشير عدد مرات التكرار قبل حساب 
النسبة» بل إن معدل تكرار الكلمتين في الذخيرتين متساو كما تشير معاطشة 
لنسبة التي تم حسابها. لذلك؛ فإنه عند مقارنة البيانات في ذخيرتين مختلفتين 
في الحجم, لا يمكن اللجوء إلى المقارنة السطحية لعدد مرات الظهور داخل 
الذخيرة؛ بل ينبغي حساب نسبة هذه الأرقام إلى رقم آخر؛ حيث يمكن أن 
يكون للرقم الناتج دلالة يمكن الاعتماد عليها. وفي ذلك الوقت يكون أسلوب 
الحساب المناسب هو: 


عدد مرات ظهور الكلمة داخل الذخيرة 


النسبة - : 
إجمالي عدد كلمات الذخيرة ' 


وهذه النسية يتم التعبير عنها بالنسبة المئوية. 
ثالنًا: أسلوب الاختبارات الإحصائية 

على فرض أننا نريد مقارنة الإصدارين اللاتينيين لكل من إنجيل متا 
وإنجيل يوحناء سنجد أن مقارنة حالات الاستخدام لصيغة المضارع ؛)ك01" 
وصيغة الماضي "41216" لفعل القول "هه 0 في الذخيرتينء علينا أن نبدأ 
بإحصاء عدد مرات تكرار كل كلمة في كل إصدار. وتغون نتيجة الإحصاء 


كما يلي: 
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ويمكننا أن نلاحظ من خلال الأرقام السابقة أن عدد مرات استخدام 
صيغة المضارع (14) في إنجيل يوحنا أكثر من عدد مرات استخدامها في 
إنجيل متا. وعلى فرض أن هناك عدم اتفاق بين الإنجيلين يتمثل في هاتين 
النقطتين» فإننا نحتاج إلى إثبات أن هذه الملاحظة ليست وليدة الصدفة مسن 
خلال العمليات الإحصائية. فنحن لا يمكننا الاكتفاء بالبيانات الموضحة 
بالجدول السابق للحصول على هذه النتيجة؛ ولكن الأمر يستدعي مستوى 
أعلى من التجريبء بمعنى إجراء اختبار إحصائي من أجل تقرير أوجه 
الاختلاف بين استخدام فعل القول (:إ58 60) في الإصدارين» وإقرار درجة 
احتمال الصدفة في وجود هذا الاختلاف. 

يمكن لعلم الذخائر اللغوية اللجوء إلى أكثذر من اختبار إحصائي 
للتوصل إلى ذلكء وهذه الاختبارات تشمل اختبار كا* (2 )» واختبار تي غ 
وغيرها من الاختبارات. وحتى نوضح أهمية استخدام هذه الاختبارات في 
عمليات التحليل اللغوي ستقدم شرحًا مبسطًا لاختبار كاة (27 )؛ وذلك 
نظر! إلى أن اختبار كا” ( 7 ) من أكثر الاختبارات الإحصائية اس تخداما؛ 

حيث يتمتع بالمميزات التالية: 
)1( زيادة حساسيته تجاه البيانات مقارنة باختبار تي غ. 
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)( لا يحتاج هذا الاختبار إلى توافر فرضص "التوزيع الطبيتعي”" 
للبيانات؛ الذي لا يمكن الحصول عليه لبعض البيانات اللغوية. 

0( سهولة حساب اختبار كا” (:4 ). ومن عيوب اختبار كا” 
لد عندما تكون المادة التي يتم البحث عنها قليلة العدد فإن النتائج 
تفتقد إلى الموثوقية. 


يسْتَحْدَم اختبار كا” ( 2 ) غالبًا في مقارنة الفرق بين عدد مرات 
التكرار المشاهدة داخل الذخيرة مع عدد مرات التكرار المُتوقعة. وكلما 
اقترب عدد مرات التكرار المُشاهدة مع عدد مرات التكرار المُتوْقَعَة كانت 
الظاهرة اللغوية تَحْدْتْ على سبيل المصادفة. وعلى العكس من ذلكء كلما زاد 
الفرق بين عدد مرات التكرار المُتَوَقَمَة وعدد مرات التكرار المٌشاهدة عَبنَ 
ذلك عن أن عدد مرات التكرار المُشاهّدة قد حدث نتيجة تأثير عوامل معينة 
وليس على سبيل “الصدفة. وإذا تحدثنا عن المثال السايق» نجد أن هناك اختلافا 
حقيقيًا بين إصداري الكتاب المقدس في طرق استخدام فعل القول (0539؛). 
بغض النظر عن التفاصيل الخاصة بخطوات حساب قيمة كاة 
)1 وطى رض فنا ييا باط ستو اعسات قي 16 2 
لصيغتي المضارع والماضي من فعل القول ")ك01": و"]0121": ثم آر أردنا. 
التعرف على درجة أهمية هذه القيمة في جدول قيم كا (:2 )؛ فقبل ذلك 


ف متم 


ينبغي تحديد قيمة درجة الحُريّة» التي تُحسب من المعادلة التالية: 


2202 
)١(‏ لمزيد من التفاصيل عن اختبار كا ( 2 ) انظر مراجع الإحصاء الخاصة 
بالاختبارات اللامَعلميّة.(المترجم) 
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درجة الحريّة > (عدد أعمدة الجدول التكراري - )١‏ * (عدد صفوف 
الجدول التكراري-١)‏ وبعد ذلك يتم البحث في جدول قيم كل (20 ) عسن 
قيمة الاحتمال المناظرة لتقاطع كل من درجة الحرية مع قيمة كل (20 ). 
وإذا اقتربت هذه القيمة من الصفر فإن هذا يعني أن الظاهرة حدثت بشكل 
ا وعلى العكس من ذلك إذا كانت 
القيمة أكبر من الصفر فهيذا دِ يعني أن الظاهرة حدثت ت على سبيل المصادفة. 
زعا إن أن برخة اعمال اهن بين ٠‏ و١ء‏ فقد اتفق ق على اعتبار قيمة 
تقديرية تُعَبّر عن أن النتيجة ذات مغزى إحصائيء وهذه القيمة المُتفق عليها 
تقدر ب ٠,١5‏ فإذا كانت قيمة الاحتمال التي يتم الحصول عليها من جدول 
الكشف أقل من ٠.١٠5‏ فإن هذا يدل على أن نسبة 9095 من المشاهدات 
تحدث عمذا؛ وإلا فإن درجة موثوقية القيم الإحصائية التي يتم التوصل إليها 
لا تصل إلى نسبة 715. 

والآن دعونا نحكم على الفرق بين الكلمتين في المثال السابقء وهل 
القيم الإحصائية التي تم الحمصول عليها ذات مغزى أم لا؟ بالاستعانة بالجدول 
التكراري نجد أن قدٍ قيمة كل” ( 2 ) قساوي 847, 5» وبما أن الجدول 
التكراري السابق يحتوي عمودين وصفيْن؛ إذن درجة الحُرّيّة (؟-١)‏ * -١(‏ 
.١ - )١‏ . وعند الكشف عن قيمة الاحتمال المقابلة لتلك القيمة في جدول 
توزيع كاة ( :2 ) نجد أنها تساوي ٠١‏ وهي بالطبع قيمة أقل من 
القيمة التقديرية ه2٠ ٠.‏ ولذلك يمكننا الحكم أن هذا الفارق يعبر في حقيقة 
الأمر عن أن هناك اختلاقا في استخدام فعل القول في إصدار ي الكتاب 
المقدسء وأن هذا الاختلاف لم يأت على سبيل المصادفة. 
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رابعًا: التصاحب اللغوي 

التصاحب (2»01102261082) من المفاهيم المهمة التي لها تطبيقات على 
نطاق واسع في علم اللغة. وباختصارء فإن التصاحب ما هو إلا نمط تظهر 
من خلاله المفردات بصورة اقترانية ويكون لذلك النمط خصائص محددة. 
ويرى كجلمّر اذا (1991:وسرااء1) أن قاموس المفردات في عقل الإنسان لا 
يتكون فقط من كلمات مفردة» بل يحتوي العديد من الوحدات اللغوية التي 
تزيد عن الكلمة وترتبط فيما بينها بعلاقات نحوية. وهذه الوحدات منها ما هو 
ثابت» ومنها ما هو متغير. إن عملية تمييز أنماط التصاحب اللغوي داخل 
النصوص اللغوية (بالإضافة إلى ما قال به كَجْملر من أنه نمط من أنماط 
التراكيب النحوية» فهو يوجد في تلك الكلمات التي دائمًا ما تظهر بمصاحبة 
كلمات معينة) تلعب دور! في غاية الأهمية في مجال التأليف المعجمي؛ حيث 
يساعد ذلك في وضع معاني الكلمات وتحديد مجالات الاستخدام لكل منها 
وسياقاتها. وهذه المعلومات تلعب دور! مماثلا من حيث الأهمية في علم 
معالجة اللغات الطبيعية وتعليم اللغات. 

إن الكشف عن التصاحبات اللغوية لكلمة معينة داخل ذخيرة لغوية؛ إما 
أن يتم باستخدام المنهجيات الإحصائية» أو باستخدام المنهجيات القائمة على 
نظرية المعلومات. 
١‏ - كمية المعلومات المتبادلة واختبار زد 2-5201 

إذا كان لدينا ذخيرة لغوية» يمكننا أن نكتشف أي الكلمات بينها درجة 


من درجات التصاحب الواضحة وذلك وفقا لطبيعة البيانات التجريبية التي 
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يمكن استخراجها من تلك الذخيرة» ومن المؤكد وجود قوة اقترانية ذات 
مغزى بين الكلمات المكونة لتلك التصاحبات» ولا يُعتَبَر التجاور بينها تجاورً! 
على سبيل المصادفة. إن كمية المعلومات المتبادلة واختبار زد ©:ه»ة2 
دائمًا ما يتم اللجوء إليهما في الحكم عما إذا كانت هناك علاقة تصاحب بين 
كلمات معينة أم لا. 

إن كمية المعلومات المتبادلة() (صمأأقصرمكدا لقبغنادم)[52] هي 
إحدى المفاهيم المعروفة في نظرية المعلومات؛ حيث يتم التعامل مع الكلمتين 
أ" *" اللتين تُكُونان تصاحبًا لغويًا (ومن الممكن أيضًا أن يكون ذلك مع . 
أي عنصرين تمت مشاهدتهما على أنهما يتلازمان معًا في الظهور) على 
أنهما حدثان عشوائيان يحدثان معاء ولحساب كمية المعلومات المتبادلة بين 
حدثين» ينبغي البدء بحساب احتمال تحقق هذين الحدثين معنا من خلال 
المعادلة (::205, بالإضافة إلى حساب احتمال ظهور كل كلمة بمفردها 
(019, و (:701» ويتم حساب كمية المعلومات المتبادلة من خلال المعادلة 
التالية: 


1 ش 
سنتختشستت- و10 > ( ونا ,ناا) بار 
لمم ( رسام 52 1 


إن المعنى الحقيقي لمصطلح كمية المعلومات المتبادلة هو مقدار حجم 
المعلومات التي يقدمها ظهور كلمة معينة لكلمة أخرى عندما تظهر 


)١(‏ كمية المعلومات المتبادلة بين الحدث العشوائي 0اء والحدث العشوائي ٠0,‏ . تُعَرف 
أنها مقدار الغموض الذي يتناقص حول ,1 بعد حدوث ,10 . (المترجم) 


214 


بصحبتها. على سبيل المثال الكلمتان المتصاحبتان (5000 ,10188 تُكُونَان 
وحدة لغوية مُجَمَّعَةَ أما واداهمه؟ و 000560 فعلى الرغم من أتهما قد 
ظهرا معاء كما في الجملة (... جده؟ 5070560 هلنصدم د 15 )1)؛ فإن هذا 
التصاحب قد حدث على سبيل المصادفة» ولا يوجد بين هاتين الكلمتين 
ارتباط من نوع خاص. وبصورة عامة» فكلما زادت قوة الارتباط بين 
كلمتين؛ زادت قيمة المعلومات المتبادلة بينهما؛ وإذا كان هناك ارتباط سلبي 
بين كلمتين (بمعنى أن ظهور إحداهما يمنع ظهور الثانية» والعكس صحيح)؛ 
فستكون قيمة المعلومات المتبادلة بينهما بالسالب. أما إذا كانت الكلمتان 
تظهران بصورة مستقلة (بمعنى عدم وجود علاقة بينهما)؛ ففي تلك الحالة 
ستكون قيمة المعلومات المتبادلة تساوي صفرا. وبعبارة أخرىء فإن الكلمتين 
اللتين بينهما قيمة معلومات متبادلة كبيرة يزداد احتمال وجود اقتران ذي 
معنى بينهماء أما عندما تقترب قيمة المعلومات المتبادلة بين كلمتين من 
الصفر أو تقل عنهء فلا يمكن أن يكون هناك تصاحب بينهما. 

أما القيم التي يقدمها اختبار زد (2-5205) فتشبه تلك التي تقدمها 
معادلة كمية المعلومات المتبادلة. فبالنسبة إلى كلمة معيئة داخل نصء يدم 
اختبار ز د (05»:-2) مقارنة بين المشاهدات الحقيقية والمشاهدات المُتوقمَة 
للكلمات الأخرى التي تظهر في السياق المصاحب لتلك الكلمة. وكلما زادت 
قيمة اختبار زد (»2-5»07) لكلمة من الكلمات مع كلمة أخرى يتم تحديدهاء 
زادت القوة التصاحبية بينهما (أو القوة الاقترانية بينهما)؛ بمعنى زيادة إمكانية 
وجود اقتران له دلالة بين هاتين الكلمتين. ولا يُسُتخدم اختبار زد (2-5©07) 
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كثيرًا في علم الذخائر اللغوية» إلا أن هناك برمجية تسمى 7467 للفهرسة 
السياقية استعانت بئلك المنهجية. 
؟ - تطبيقات كمية المعلومات المتبادلة واختبار زد (»:2-520) 

الاستخدام الرئيس لهما هو استخراج الوحدات اللغوية المُرَكُبَة من أكثر 
من كلمة» ولا يشمل ذلك التعبيرات اللغوية الشائعة فقط مثل ' 8هة :ا»0» 
اآناط" بل يمتد ليشمل التعبيرات الاسمية أيضباء مثل " [ن:تهمصره) 
أصادل #قاداط دهده" فهذا الأخير يُعتبر تعبيرا اصطلاحيّاء وبجانب استخدام 
نتائج هذين الاختبارين في صناعة المعاجم؛ فإن لهما استخدامًا مهما في 
مجال الترجمة؛ حيث يمكن من خلالهما بناء قاعدة معارف تفصيلية عن 
المصطلحات المستحمة في مجال معين. 

أما ثاني أهم التطبيقات التي تَمسْتخدم فيها كمية المعلومات المتبادلة 
واختبار زد (»:2-5©0) فيتمئل في إمكانية المساعدة في إزالة اللبس اللغفوي 
(دهنغهسوأطدمهوزط عكمء5 1800 والذي يُطْلق عليه اختصار! 558). وهذا 
يختلف عن التطبيق السابق» لأننا في تلك الحالة نكون بصدد استخراج 
مجموعة التصاحبات اللغوية المألوفة لكلمة من الكلمات؛ فإذا أردنا أن نُحَدد 
أهم التصاحبات التي تأتي مع كلمة ماء فمن الممكن أن يكون ذلك في إطار 
الاحتمالات التالية: 

)١(‏ نجمع التصاحبات التي تشترك في كلمة واحدة في مجموعات» 
الأمر الذي يساعد علماء اللغة في التعرفٍ الآلي على المعاني المختلفة لتلك 
الكلمة من خلال قائمة مفهرسة للتصاحبات. فكلمة "60851" على سبيل المثال 
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يمكن أن تكون تصاحبًا لغويًا مع كلمات معينة في مجال الجغرافيا (مثل كلمة 
دعالم) ولكنها تُكون تصاحبًا آخر مع كلمات مختلفة في مجال البنوك والمال 
(مثل كلمة 1875653686)؛ ومن هنا يمكننا التمييز بين دلالتين مختلفتين لكلمة 
"“لدوط"؛ وفي الوقت ذاته يتم إجراء مقارنة بين كلمتين مختلفتين من خلال 
علاقاتهما الاقترانية بكلمات أخرى للتعرف على مدى الاختلاف بين هاتين 
الكلمتين من حيث الاستخدام. وفي هذا الإطارء أجرى العالم ليتش 
(1992:طءوع,51)1! تجربة لمقارنة الاختلاف في الاستخدام بين الكلمتين 
"مده" و"1ب4ع8مم" في اللغة الإنجليزية. فاستخدم نظرية المعلومات 
المتبادلة لاستخراج الاقترانات المصاحبة لكل من هاتين الكلمتين داخل 
الذخيرة اللغوية» وكانت النتيجة أنه اكتشف اختلاف هاتين الكلمتين من حيث 
القدرة الاقترانية. فكلمة '50:08” تقترن مع كل من "لإلمعط مه" 
و "85 األامطو”» و"«نامأكتقطعغط"” و "كاسع تتطنع". و ع4 مزمية”؛ وما إلى ذلك» 
أما كلمة '07:41م" فتقترن مع كلمات مثل '001)"”. و"جمصتس": 
و“امططواعمتك و"أهطتصرة"؛ و'ع دو" "دسمدوء”",. وما إلى ذلك. وعلى 
الرغم من أن هناك بعض التصاحبات التي تم حصرها فإنه لا يمكن أن يُطلق 
عليها اقتران بالمعنى الدقيق للكلمة؛ ولكن يمكن أن يتضح منها وجود 
اختلافات جوهرية بين هاتين الصفتين من حيث الاستخدام. 

وهناك استخدام آخر مهم لنظرية المعلومات المتبادلة:؛ ألا وهو 
المساعدة في دراسة العلاقة الدلالية بين ذخيرتين لغويتين متوازيتين ثنائيتي 
اللغة على مستوى الأسطر. فعلى فرض أن لدينا ذخيرتين ثنائيتي اللغة وتم 
عمل تواز بينهما على مستوى الأسطرء بالإضافة إلى عمل تواز على 
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مستوى الجمل؛ بمعنى أننا يمكننا اختيار جملة ما داخل إحدى الذخيرتين» 
وتحديد الجملة المترجمة عنها في الذخيرة الموازية لها. فبناءً على ذلك؛ 
يمكننا عن طريق الحساب أن نتوصل إلى الكلمات وترجمتها داخل كل جملة 
من جمل الذخيرة. 

خامسسا: النماذج اللغوية 


١‏ - نموذج العنصر 71 (نموذج الرتبة 17-1 لماركوف) 

على فرض أن لدينا سلسلة من العلامات 5 تتكون من محدد 2 من 
العلاماتء وهذه العلامات على التوالي يرمز لها بالرموز 05:17" ؛ فإن 
النموذج اللغوي الذي يَعتمد على تواتر تلك العلامات معًا يرى أن احتمال 
ظهور عناصر السلسلة ؟: معًا يُحسب من المعادلة التالية: 


7 
ق. .10 | 00 ] | - (بقت 1 | و11 ...( ناتي19 | ج18) 2( نا | و11 )م - (2)8 


لافطا 


وعند بناء فرض مستقل وفقَا للمعادلة السابقة» بمعنى افتراض أن 
ظهور كل كلمة”" في السلسلة الكلامية 5 يرتبط فقط بالكلمة السابقة لها؛ 
التي تحتل الموقع 7-1 وذلك وفقا للصيغة - :2-0-0 بالإضافة إلى 
عدم وجود علاقة بينها وبين الكلمات الأخرى خارج نطاق 7-1. فيمكن 
التعبير عن المعادلة السابقة كما يلي: 


(د .ب رهم ]ل[ د ركم 


لط 
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0 
(دبرلقة.. ,10 | 0 ] [ (١‏ يلات ءاد | دبرنت) لل( ,100 | و11) 2( إنالة) ثرح 


اع 
إن النماذج النخوية المكوّنة من عدد لا من الوحدات تساوي نموذج 
الانتقال بخطوة لماركوف 71-1. 

النماذج النحوية الأخرى الأكثر شيوعًا؛ التي تنتمي إلى نموذج الانتقال 
بعدد 11 من الخطوات هي: نموذج الانتقال بخطوتين ونموذج الانتقال بثلاث 
خطوات وذلك عندما 7-2 و3-/7 على التوالي. بمعنى أن احتمال ظهور أي 
كلمة ينحصر فقط في ظهورها مع كلمة أو كلمتين سابقتين لها داخل النص. 
وعلى ذلك فإن معادلة حساب تلك الاحتمالات يُعبّر عنها بالصيغ التالية: 


معادلة حساب النموذج النحوي الثنائي: 


(_ط | )ص [ [(سمط - (ى)م 
1-2 


معادلة حساب النموذج النحوي الثلاثي: 


(مظليب" | )2 ] [(1| )اط( )ص د (ك)مم 


؟ - نموذج ماركوف الكامن 
(11101131) 51001 اماه 1 دع11103 
نموذج ماركوف الكامن 1438486 هو ائتلاف مجموعة من الحالات 
تربطها سلسلة من التحولات التي تَكُون دائمًا في إطار احتمالين: الأول هو 
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احتمال التحول ([]أازط 02م )2 وهو الذي يُعطي احتمال حدوث 
. هذا التحول؛ والثاني المتوالية المُعبّرَة عن كثافة مخرجات الاحتمال 
(ممتأعصنط لإأتعمع2 بأتاتطوهمم2 أنامأن0 0) (002) وهو الذي يُعرف 
احتمال خروج كل رمز من قائمة حروف أبجدية محدودة العدد كما يظهر لنا 
من الشكل .)١-9(‏ 


8 لما 0 


5] 


2 


شكل :)١5-7”(‏ نموذج ماركوف كامن مبسط 
(حالتان» ورمزان مُخرجان » و8) 

التعريف الشكلي لنموذج ماركوف الكامن كما يلي: 

(أ) اقتران الحالة (5]: ويشمل حالة بداية 37» وحالة نهاية ؛ 

(ب) اقتران التحول 4/(:47): حيث تعبّر © عن احتمال التحول من 
الحالة * إلى الحالة . 1 
اديه رج ,0< يهرز ,907و( د رآ | قح )مد 

/ 
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(ج) التنظيم الاحتمالي للمخرجات ب( (4) رقع حيث ع 5 عن 
احتمال ظهور العلامة » في أثناء التحول من الحالة * إلى الحالة .. 
وقار2 :20 رطاءل م لأدرر رم 116 > ,ا | + - )م د رط 
3 1 


حيث تَعَبّر 5:74 في المعادلة السابقة عن أن الحالة 4 تحدث في 
اللحظة 4 و74 "3 تُعَبر عن ظهور العلامة * في اللحظة /. 


وإذا كان لدينا نموذج ماركوف كامن 8138484 يُطلىَ عليه 34 فإن 
احتمال أن يُوَلد هذا النموذج سلسلة من العلامات يُطلق عليها "7 يُصْمب من 
خلال المعادلة التالية: 
(* ابرع :2 | 372 ََُ ارد 2 - )م 


ادقن 


والمعنى المباشر لتلك المعادلة هو: حصر مسارات التحول في سلسلة 
العلامات '7؛ التي تنشأ بأطوال مختلفة من 7 ويُرْمَز لها بالرمز “د 
(ويُطلق عليها أيضًا اسم سلسلة ماركوف). بالإضافة إلى البحث عن احتمال 
حدرتهاء ومن بين ذلك فإن احتمال حدوث كل مسار من مسارات السلسلة 
5١‏ يتم حسابه من خلال الجمع بين احتمال التغير في هذا المسار بالإضافة 
إلى احتمال المخرجات. إن سلسلة ماركوف 3 وتَسلْسئل العلامات 7 الخارجة 
منها جميعها تنشأ من نموذج واحد كامن لماركوف 5184384؛ ولكن تسلسل 
المخرجات 3 يُمْكن مشاهدته مباشرة:؛ أما تسلسل الحالات لآ فهو كامن 
(صع0100). 


1 ؟؛ وهما: 
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فرض ماركوف (صمتامتسسعكعة «معامة3/1) 


()دعة 08 + ع ]1) - رباد - 2 )+1 - 007 


حيث تُعَبّر 7“ فى المعادلة السابقة عن تسلسل الحالات» التي يرمز له 
بالرموز 21:47 . وفرض ماركوف يُعبَّر عن أن احتمال وصول 
سلسلة ماركوف إلى حالة محددة لا يحدث إلا في اللحظة ؛ المرتبطة بحالة 
سلسلة ماركوف. ْ 

الفرض المستقل عن المخرجات ( ععمعلمعمعء50 ةل 6ناصاناه 


ها متستادعة) : 


1ت ,1 | ,لاح )م د راود انزلا دك ادح ,0م 


بره > بج 


4 


حيث تُعبر “/ في المعادلة السابقة عن سلسلة المخرجات تلدداء1:, 
إن الفرض المستقل عن المخرجات يُعَبّر عن أن احتمال ظهور مجموعة 
علامات معينة في اللحظة ؛ يرتبط ارتباطا وثيقا بمقدار التحول (من ” إلى 
+) الذي يحدث في اللحظة نفسها. 

وفي إحدى نماذج ماركوف الكامنة 113404» نجد أن احتمال توليد 
النموذج 1/1 من السلسلة 77 يُحْسَب من المعادلة: 


7 
- )2( ع ,1 | بباح ]2)1[  [‏ د ررد “للم 


اج للق 


0 - حت 2 | 8 
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"- النموذج النحوي للعنصر 2,3 مقارنة بين كل من النموذج المُعتمد على 

النحوء ونموذج ماركوف الكامن 1111314 

إن طريقة حساب النمط المُعْتمد عل النحو للعنصر /73 (نموذج الرّتّبة 
21-1 لماركوف) بسيط وعملي ويُسْتَخْدم على نطاق واسع في تمييز 
الأصوات اللغوية والأنماط اللغوية في مجال اللغات الطبيعية. إلا أن أهم. 
صفة تتميز بها اللغات الطبيعية هي الاتجاه نحو التركيب» وعلى العكس من 
ذلك نجد أن النموذج النحوي للعنصر ١3‏ ما هو إلا نموذجا لغويًا يعتمد على 
إظهار العلاقة بين العلامات بصورة خطية؛ ولا يمكنه إلا تمييز العلامات 
التي تُعَبّر عن معلومات البنية السطحية للغة (عادة ما يكون ذلك من خلال 
العلامات المُعبّرَة عن الرموز والكلمات وأنواعها النحوية) وما بينها من 
مظاهر تُعبّر فقط عن علاقات التجاور في النصوص اللغوية؛ ومن فَمٌ لا 
يمكنها استقراء حالات التراكيب اللغوية؛ ولذلك فإن النموذج النحوي للعنصر 
اا يُستَخْدَم على نطاق مجدود في التعبير عن اللغات الطبيعية بطبيعتها 
المركبة. 

يُعتبر نموذج ماركوف الكامن 113401 هو الشكل المُطوّر من نموذج 
ماركوف التقليدي. فنموذج ماركوف التقليدي يكتفي بوصف التحُّول الذي 
يحدث لكل حالة من الحالات اللغوية بشكل عشوائيء أما نمسوذج ماركوف 
الكامن /11/1! فيصف حدثين عشوائيين: الحدث العشوائي الأول يصف 
احتمال ظهور العلامة اللغوية والحالة التي تكون عليها؛ أي أن المُخرجات 
تكون دالة في الحالة؛ أما الحدث العشوائي الثاني فلا يصف إلا علاقة التحُول 
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التي تحدث بين الحالات. وبالنسبة إلى المستخدم العادي» فإن ما يراه ههو 
المخرجات فقطء ولا يمكنه أن يشاهد التحول الذي يحدث بين الحالات 
المختلفة؛ أي أن التحول بين الحالات يكون مخفيا. إن نموذج ماركوف 
الكامن /40/1) يشبه الطرق التقليدية في حساب الاحتمالات "!. من حيث 
محدودية الحالات التي يمكن التعامل معهاء ومن ثم عدم إمكانية وصف 
مستويات التركيب المختلفة في اللغات الطبيعيةا*"!. 
4 - تطبيقات نموذج ماركوف الكامن 41 في الذخائر اللغوية 

يمكن التعرف على التطبيقات الحقيقية لنموذج ماركوف الكامن 118401 
في معالجة اللغات الطبيعية من خلال ما يتم في عمليات ترميز ذخيرة لغوية. 

وصف المشكلة 

نفترض أن لدينا سلسلة من الكلمات 02-077" » ونريد توصيف تلك 
السلسلة من حيث الأنواع النحوية لها ©:::60:22؛ ونظرً! إلى انتشار ظاهرة 
اللبس اللغوي في تمييز الأنواع النحوية للكلمات؛ فمن الممكن أن يقابل 
السلسلة الواحدة من الكلمات عدة سلاسل من أنواع الكلمات» هذا بالإضافة 
إلى أن سلسلة أنواع الكلمات التي نريد الحصول عليها ستجعل قيمة المعادلة 
( 14 ...ىون ورل16 | ج6©:---:1:62©) وؤ0جز5 تعادل قيمة أكبر سلسلة من 
الأنواع النحوية للكلمات!" !. 
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وباستخدام قانون بايز .وعنره8!) للاحتمالات يمكننا كتابة المعادلة 
السابقة بالصيغة التالية: 
(ج....ون ,)2108 2 (....ويعى» | ثلا ...بوثلا ى 11 ) 2018 


11 ,... و ونا 110) م 
تحور يُطلق على ل( سمي ب© | جنال ...مولا ,115018018 اسم معادلة 
المعلومات المتعلقة بالمفردات» ويُطلّق على (7408)6:6::...:7 النمسوذج 
اللغوي؛ ونظر! إلى ثبات المقام بالنسبة إلى سلاسل الكلمات المتساوية فإن 
المعادلة السابقة يمكن اختصارها إلى المعادلة التالية التي تَحْسب أكبر سلسلة 
من أنواع الكلمات. 


(ج ...وين , )2/008 كا( ....ر يع ون | مجلا....ى ونلا 110) 21608 
ويمكننا وضع مستوى أعلى من الفروض للمعادلة السابقة: إن احتمال 
ورود الكلمة الحالية يتم التوصل إليه من النوع النحوي للكلمة؛ والنوع 
النحوي لهذه الكلمة مرتبط فقط بنوع الكلمة السابقة لها. وفي النهاية يتم 
التعبير عن الموضوع بالكامل من خلال المعادلة التالية: 


7 
)60 | 20140 ( در ...وج و © | )2 11 


حيث تشير * إلى سلسلة الكلمات التي يتم ترميزها في النهاية» 
وتشير (.)2 إلى الاحتمال. 


(6)م ل | نعم رسام لل عنة > "7 


(1) قانون بايز هو إحدى النتائج المهمة لنظرية الاحتمالات ويقوم بحساب التوزيع 
الاحتمائي الشرطي للمتغير العشوائي 8 بمعلومية المتغير العشوائي 8. (المترجم) 
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من المعادلة السابقة يمكننا أن نستخرج المستوى الأول والثشاني من 
نموذج ماركوف الكامن 113434؛ حيث إن المستوى الأول لنموذج 11141814 
يُعَبّر عن أن النوع النحوي للكلمة الحالية لا يرتبط إلا بنوع الكلمة السابقة 
عليها. وتكون المعادلة بالتفصيل كما يلي: 


- 
(© | لام( نوع وك | م[ [(ها )2 (2)6 اقم عنة - 7 


1-2 ونس ورج 


2 
5 


حيث تَعَبّر (16 706 عن احتمال تغير الحالة في نموذج 13/1/الاء 
تَعَبّر 70167 عن احتمال توليد الكلمات. 

وبذلك يكون التعبير عن مسألة ترميز أنواع الكلمات قد تم من خلال 
أفضل صيغة لنموذج ماركوف الكامن 7513134: ويمكن التأكد من صحة 
النتائج السابقة فيما يتعلق بحساب احتمال التغير في الحالة واحتمال توليد 
الكلمات من خلال دراسة ذخيرة لغوية سبق ترميزها. 


الفصل الثال 
برامج الفهرسة وتطبيقاتها 


يقدم هذا الفصل تعريفا لبرمجيتين إحصائيتين يتم استخدامهما في 
تطوير الذخائر اللغوية قام بتطويرهما العالم اللغوي سنكلير.(51221915) وتقوم 
هاتان البرمجيتان بعرض الكلمة التي يتم الاستعلام عنها مع السياقات التي 
وردت فيها الكلمة داخل الذخيرة في كل مرة وردت فيها. ويتمثل الاختلاف 
بينهما في أن كلا منهما تقدم المعلومات التي يتم الاستعلام عنها مُرَتَبَة حسب 
معايير إحصائية تختلف عن الأخرى؛ وذلك لمساعدة المستخدم في تحليل 
الظواهر اللغوية. فبرمجية كولوكيت 00110866 تقوم بحساب الكلمات التي 
د توارد مع الكلئة موطع الببعث بصورة مباتسيرة: أما برمجية تيبيكال 
أمعام 1 فتحسب التوارد مع الكلمة موضع البحث على مستوى السطر 
بأكمله بغعض النظر عن تجاور الكلمتين معا. وقد تجاوزت النتائج التي حققتها 
هاتان البرمجيتان كل التوقعات المبدنية. وتمتعت كل مهما يمكانة عالية من 
حيث شيوع الاستخدام في مجال تطوير الذخائر اللغوية. ويشير المرجع /"”! 
بالتفصيل إلى العمل الذي قام به سنكلير من خلال هاتين البرمجيتين»ء وسوف 
نشرح ذلك بالتفصيل في الأجزاء التالية: 


أولاً: برمجية كولوكيت 01:1:04717© 


تقوم برمجية كولؤكيت 001106866 بداية بحساب عدد مرات تكرار 
كلمة ما داخل جدول الكلمات المُفهؤْرس الذي تم استخراجه؛ بالإضافة إلى 


2237 


احتمال ظهور تلك الكلمة داخل االذخيرة -اللغوية. وبناءً على هذه المعلومات 
تتمكن البرمجية من حساب درجة وضوح علاقة التصاحب بين هذه الكلمة 
وكلمة أخرى يتم تحديدها سابقا. والمقصود بمدى الوضوح هنا النسبة بين 
احتمال ظهور الكلمة المُرشّحّة لتكوين التصاحب داخل الذخيرة بأكملها وبين 
احتمال ظهورها داخل النص موضع الدراسة. 


-١‏ طريقة الحساب 

في البداية يتم حساب عدد مرات ظهور الكلمة المطلوبة داخل الذخيرة» 
ثم تَحْسَب القيم المشاهدة والقيم المتوقعة لكل كلمة من الكلمات المّكُوّنة لكل 
سجل من سجلات الملف المُفهؤرس. وعند حساب التكرار يمكن اختيار إحدى 
الطرق التالية: بعد إهمال حالة الأحرف الكبيرة والصغيرة في الكلمات 
الإنجليزية المعردة» يمكن مراقبة نوع الكلمات بعد حذف علامات التضريف: 
ويمكن أيضنًا مراقبة الكلمات موضع الدراسة مع الكلمات التي تتضاض مها 
نواء فق جية السار أو اليمين أو كلاهما مشاء 

المدخلات التي يتم الحساب عليها: ملف التحليل الإججائل السياقي 
41 226لمعه0» عن سياقات الكلمة موضع البحث ينتج عن البرمجية. 
فعندما تظهر الكلمة موضع البحث داخل الذخيرة» تقوم البرمجية بإنشاء قائمة 
مرة مجمو عة ع جلت د تحتوي الكلمات التي تصاحبت مع تلك الكلمة 
المفتاحية يمينا ويسارً! وفقًا لامتداد معين من الكلمات يُطْلَق عليه نافذة. 
وجميع السجلات المّحتواة في تلك القائمة يتكون منها ملف التحليل الإحصائي 
السياقي للكلمة 151 ععة5010م». ش 


في البداية يتم الحصول على قائمة بها معدل تكرار جميع الكلمات عن 
طريق إحصاء يتم على ذخيرة واسعة النطاق. 

بعد ذلك يتم حساب درجة وضوح التصاحب التي يُشار إليها بالرمز 
5 بين الكلمة موضع البحث وجميع الكلمات الأخرى ويشار إليها بالرمز 77 
وتكون معادلة الحساب كما يلي: 


احتمال ظهور الكلمة ؟ داخل ملف 
الفهورسة 
احتمال ظهور الكلمة 8 داخل الذخيرة 


بأكملها 


حد ث 1 /(م) عب 6 / ل ع 0 عو وجورم ,/ (ندد) وم 6 آي د ناذا 5 


و (768,.»)0, و 7769 مَعَبّر كل منها عن عدد مرات تكرار الكلمة ٠"‏ 
في ملف سياقات الكلمة وداخل الذخيرة بأكملها على التوالي؛ أما »م 
و0" فتعبْر كل منها عن عدد الكلمات في ملف سياقات الكلمة والذخيرة 
بأكملها على التوالي. 
المخرجات: عند عرض المخرجات يتم ترتيب الكلمات المصاحبة 
للكلمة التي يتم الاستعلام عنها وفقا للقيمة المحدّدة لوضوح درجة التصاحب 
في المعادلة السابقة» ويحتوي كل سجل أربع خانات تضم المعلومات التالية: 
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أ) التصاحبات: حيث تُعرّض الكلمات التي يتوافق ظهورها مع الكلمة 


ب) عدد مرات تكرار الكلمة: حيث يُعرّض عدد مرات تكرار 
التصاحب داخل الذخيرة. 


ج) معدل التكرار المتوقع: حيث يُعرض معدل التكرار الاحتمالي 
المتوقع للتصاحب في إطار سياق له طول محدد. 

د) معدل التكرار الحقيقي: حيث يُعرض عدد مرات الظهور الحقيقفي 
للكلمات المتصاحبة مع الكلمة موضع البحث داخل ملف السياقات. 

وعند تنفيذ هذه العملية» يكون هناك اختياران: 

)١(‏ حساب أو إهمال خالة الأحرف. 

(1) حساب أو إهمال معلومات موضع الكلمة. وسوف يتم شرح تطبيق 
هذه العمليات من خلال الأمثلة الثلاثة التالية. على فرض أن الكلمة التي نريد 
الاستعلام عنها هي كلمة "3/575": وأن طول السياق هو أربع كلماتء 
سيعرض الجدولان :)١-7١(‏ و(1-1) النتائج كل على حدة؛ مرة مع إغفال 
التغيرات الصرفية؛ ومرة أخرى مع احتساب التغيرات الصرفية؛ حيث 
يَعْرِض العمود الأول من كل جدول الكلمات التي ترد في حالة تصاحب مع 
هذه الكلمة» ويعرض العمود الثاني والرايع على التوالي عدد مرات ظهور 
الكلمة المتصاحبة مع كلمة "37915" في كل من الذخيرة وملف السياقات على 
التوالي. أما العمود الثالث فيعرض قيمة وضوح درجة التصاحب التي تم 


كولوكيت 00106316 هي عرض النتائج مُجمّعة في كل عمود من الأعمدة. 
جدول :)١-”(‏ مع إغفال التغيرات الصرفية 


الكلمات المُتصاحبة | عدد مرات ظهور الكلمة | قيمة وضوح عدد مرات ظهور الكلمة 
المُتصاحبة داخل ملف السياقات 


لعطعع 01115 
عطع 602 08 660 
00220160 014 38 
0 0 022 37 
1010 0 3.52 527 
11 | 1462 1.0 165 
1100001 1310 1.38 154 
015 12038 11 5960 
11 807 0,9 060 
504 
116 
23 
21 
59 
30 
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جدول :)١5-79(‏ مع اعتبار التحولات الصرفية 


الكلمات المُتصاحبة | عدد مرات ظهور الكلمة ٠‏ قيمة وضوح © عدد مرات ظهور الكلمة. ْ 
مع كلمة "305" المتصاحبة في الذخيرة | درجة التصاحب | المتصاحبة داخل ملف السياقات. 
مل لتسسظ 441 01 21 
0 
عطعة) 2309 0322 96 
0001110 312 04 07 
|| 3001 23,08 556 
01111 15310 1.38 154 
11م 409 00 23 
00 4107 44 236 
الى بالك _ ا ____ حل 
اه َ 10855 121 53 
| 
مس8 441 041 21 
11 4715 045 22 
نونك 
111 1.6 83 
12211010 23101 21 343 
002112021 115317 710 2052 
ع 615 026)2)1) 25 
لا 
انك 20604 1,0 78 
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من الجدول )١-1(‏ يمكننا ملاحظة وضوح درجة التصاحب بين كلمة 
"35116" وكلمة "3175" بدرجة كبيرة» فقد وصل عدد مرات ظهور 
"63006 داخل الذخيرة إلى 75 مرةء ومن الجدول )١1-7(‏ يمكننا أن 
نلاحظ أن هذا الرقم يمثل مجموع ظهور كل من كلمتي "268016 
و"6301765 داخل الذخيرة. فالتصاحبات اللغوية بين الكلمات داخل الذخيرة 
في الجدول (1-7) قد تم حسابها بين الكلمات التي تظهر معًا بعد استتيعاد 
الإضافات الصرفية لكل كلمة. 

أما الجدول (5-") فيعرض معلومات عن التصاحب بين الكلمات من 
حيث موضع الكلمة المتصاحبة من الكلمة الأساسية» وفي تلك الحالة احتوى 
الجدول عمودا إضافيًا هو العمود الخامس الذي يحتوي معلومات تشير إلى 
موضع الكلمة المصاحبة. ش 
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جد (9-"): يوضح اتجاه التصاحب (تصاحب أيسر 
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اه عدد مرات : م د 
ميس 02 التزرسي | عتيرت جد برض ونمة | 
ل ا سل المُصاحبة 

022320372370200 2020 اتلكب | داخل هلف السسرقى ا اخ 

ع 75 : 27 الع مار 
0220110 10 36 / خطعتم ما 
لطاع و0 312 65 ]1 
ْ 1516001 
1110 23427 3.2 408 أاع]1 
1160210 
م#نةطمكرز | 254 | 0,248 ]1 6» ا 
و اأساسوورة | 1910 | 1.868 13 | 01 
86و51 | 807 | 0.789 57 1 ملح 
001| 102 1.0 105 
15 10358 11 82 اع 0ل 
1111 1/141 103 105 خطعتر ملا 
411 409 00 23 ع1 0لا 
1 2307 2.50 468 أآع] 
ات 0116010 
501251 512 2.57 49 | طعت ملم 
05 1 1 12 068ظ1 1.7 82 11 مار 
1 111000 23050 2.017 122 خطعت ما 
021 اصع 001 1157 700 26 خطعتر ملا 
قسمتاعد له | 6303 | 6.165 | 241 ع1 مل 
الل لا للك 1311 122 50 خطع 1 ما 
1111 1 1116 110 44 خطعة: ملا 
١13 01001‏ | 0.911 33 161 مل 
1210111015 1257 19 40 أ11 ما 
ع وتنك 71 | 0.721 022 | غ166 مك 


تشير 16 20" إلى أن التصاحب قد تم من جهة اليمين» أما 'غطوة: 0م" 
فتشير إلى أن التصاحب قد تم من جهة اليسار. وإذا كان عدد مرات ظهور 
الكلمة المتصاحبة في جهة من الجهات أكبر من ثلشي قيمته في الجهة 
الأخرىء يتم إهمال التصاحب على الجهة الأخرى التي تحقق عدد مرات 
تصاحب أقل. ويشير كل من "0ع0«وهءدفل غ1ء1"» و"لعلمءوذل أطوك" إلسى 
جهة التصاحب التي تم إهمالها سواء كانت جهة اليسار أو جهة اليمين. أما 
إذا كان الفرق غير كبير بين عدد مرات التصاحب في الجهتين فتتّرك الخانة 
المخصصة لذلك فارغة. 


ثانيًا: برمجية ,7175:5141 


تعتمد برمجية تيبيكال 181م19 أساسًا على حساب درجة وضوح 
ظهور الكلمات معًا في سطر الفهرسة» ويُستخدم ذلك في تقدير درجة وضوح 
تكرار سطر الفهرسة بأكمله؛ ويساعد ذلك في استخراج أمثلة واقعية ذات 
طبيعة خاصة من داخل الذخيرة. وتكون مدخلات البرمجية عبارة عن ملف 
. توافق وقوع عن كلمة من الكلمات الموجودة في الذخيرة: بالإضافة إلى 
جدول عن معدل تكرار كل كلمة من الكلمات داخل الذخيرة. وبعد ذلك» تقوم 
البرمجية بمعالجة كل سطر من أسطر الملف المفهرس وتَستخرج أفضل 
سطر يمثل الشكل القياسي للاستخدام. كان التصميم المبدئي لتلك البرمجية 
يهدف إلى محاولة البحث عن الأمثلة النموذجية التي تمثل الاستخدام الحقيقي 
للغة؛ وذلك كي تكون أداة مساعدة للمعجميين في صناعة المعاجم؛ حيث 


و .2 


تمكنهُم من البحث عن أمثلة لغوية حقيقية ذات موثوقية. إلا أن استخدام تلك 
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البرمجية على أرض الواقع أسفر عن استخدامات أكثر رحابة لم تكن متوقعة 

من أحد الفروض التي تم استخدامها في تصميم هذه البرمجية: وجود 
درجة معينة من التجاذب بين كل كلمة والكلمات المحيطة بها. ومن هنا فإن ٠‏ 
هذه االبرمجية تهدف إلى استخراج جميع التصاحبات اللغوية التي يكون بينها 
وبين الكلمة موضع البحث قوة جذب. 
١‏ - طريقة الحساب 

المدخلات: 

)١‏ جدول تكراري للكلمات داخل ذخيرة واسعة النطاق. 

؟) ملف توافق وقوع عن الكلمات المصاحبة للكلمة موضع البحث يتم 
استخراجه من الذخيرة. 

المخرجات: 

ملف توافق وقوع يتم ترتيبه على أساس درجة القيم المطلقة لكل سطر 
من أسطر الملف المفهرس. 

الخطوات: 

إذا تجاوزت أي كلمة أ في سياق أحد أسطر ملف السياقات قيمة 
معينة» يتم الحساب وفقا للمعادلة التالية: 
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(031) برررى 7604 | )001 764 01 تبر 
كاترام د ال 1 1 


. حيث تشير 7 إلى معدل التكرار النسبي لعدد مرات ظهور الكلمة /" 
في سياق له طول محددء أما 7 فتشير إلى معدل التكرار النسبي للكلمة /" 
داخل الذخيرة بأكملهاء أي قيمة تكرار الكلمة في الجدول التكراري للكلمات. 

وبعد ذلك يتم استخدام قيمة زد 2-5606 في عمل تصنيف للنتيجة 


كما يلي: 


حيث تشير "7" إلى قيمة محددة تزيد عن حساب نتيجة "5" لجميع 
الكلمات التي تتواتر معًا. ولحساب قيمة 5 لكل كلمتين متصاحبتين يتم تطبيق 
المعادلة التالية: . 


حيث تشير "5" إلى قيمة الانحراف المعياري ويتم حسابها من المعادلة 
التالية: اا 


وفي النهاية يتم جمع قيمة "5" التي تنتج من حساب درجة التصاحب 
بين جميع الكلمات الواردة في السجل المُفهْرس مع الكلمة موضع البحث: 
فنحصل على قيمة رقمية عن هذا السجل يُطلق عليها القيمة القياسية لهذا 
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السجل. ثم ثُرتب السجلات تنازليًا حسب القيمة القياسية لتصاحب الكلمات 
الواردة في السجل مع الكلمة موضع البحث. ويكون شكل المخرجات التي 
تقدمها البرمجية عبارة عن قائمة مكوئة من مجموعة من السجلات يحتسوي 
كل منها الكلمات التي تتصاحب مع الكلمة موضع البحث» وأمام كل سجل 
تظهر القيمة القياسية لهذا السجل والسجلات المفهرسة التي تتمتع بقيم قياسية 
متساوية يتم ترتيبها أبجديًا. 

وهنا نود الإشارة إلى أن القيمة القياسية لسجل مفهرس عبارة عن 
تجميع نتيجة :2 لكل تصاحب داخل هذا السجلء الأمر الذي يعكس تقل كل 
عنصر من العناصر المكونة لهذا السجل. وإذا احتوى السجل المفهرس كلمة 
لها نتيجة "2" كبيرة» وكانت القيمة القياسية لهذا السجل مرتفعة؛ فإن 
السجلات المفهرسة الأخرى التي تحتوي كلمات لها قيمة "2" نفسها تكون لها 
القيمة القياسية نفسها. إلا أنه من عيوب استخدام الانحراف المعياري ما يلي: 
عندما يتساوى معدل تكرار بعض الكلمات مع متوسط عدد مرات ظهور هذه 
الكلمات فإن نتيجة "2" لهذه الكلمات تساوي صفرا. ومن أجل التغلب على 
تلك المشكلة» قام سنكلير بحذف السجلات المفهرسة التي لها قيمة قياسية 
مرتفعة؛ التي ترد في مقدمة قائمة السجلات المفهرسة» وبعد ذلك قام بإعادة 
خطوات الحساب السابقة في استخراج قائمة سجلات مفهرسة جديدة لها قيمة 


قياسية مرتفعة. 


؟- مثال 
ابتفدع بنتكاة. ازيف للحي هام التريجية لل اعتسال ةن 
تصاحبات بعض الكلمات» ففي البداية تم تحديد كلمة "04لا" ككلمة لها عدد 
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من الدلالات» فمن الممكن أن تعبر عن ارتفاع درجة حرارة الجوء أو عن 
مذاق حرتيفء أو أكل طازجء وما إلى ذلك. 

وفي هذا السياق تقوم برمجية تيبيكال 1021م19 بترتيب ملف السياقات 
المستخرج لكلمة 006" وففًا للقيمة القياسية لكل سجل من سجلات الملف؛ 
حيث تقوم بوضع السجلات التي تحتوي تصاحبات متشابهة معا على التوالي 
وففًا لنتيجة "2". وتُّجرِي البرمجية عملية البحث واستخراج سجلات ملف 
السياقات في سياق طوله ثلاث كلمات قبل وبعد الكلمة موضع الدراسة» على 
ألا تقل عدد مرات تكرار التصاحب داخل ملف السياقات عن سبع مرات. 
وفي النهاية تم استخراج ملف توافق وقوع كلمة 80" بالإضافة إلى جدول 
معدلات التكرار لتصاحبات هذه الكلمة من ذخيرة إنجليزية تضم مائتي مليون 
كلمة. ويبين الشكل (7-") التالي نتيجة البحث؛ علمًا أن الرقم الموجود في 
أول كل سجل يُشير إلى الرقم القياسي لهذا السجلء أما السجل المُفهْرس نفسه 
فيتم وضعه بين العلامتين <>. 
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:أقط) ونعامم أمط لع ععانا لعمقطد عمائتع 01 لنكلاءعدكة> 19476.18 
حطعناوتط) دعناه5 86 طهاد 


أو“تععاوم أامط 0ع ععاذا لعءعمقطد «وتتمائيع 8ه لتكأناء52 2ه > 19476.15 
<1 51117 :فى أسروجاع1! لددولما 


أمط 0ع" عط 3220118 8575255 85م2122م 220 كتستدم > 19476.18 
<لتة عاطتووع؟ د ععانا عع وتعخامم 


5 أمط 0ع" ركتناتستطملء0 لسه عصتصد! عكازل>د5ة19474.5 
<داء1111ت1 ر(04135 طم تصكا) 


201515 أمط لع مده د5ع 1 "عم5ق؟ طغات عمعلتدع لفط >19474.55 
<عط) صأ عاعء؟ 2 أمعمهو 76 عع 02 


غ50 0ع" لصة كصمع ملم همد لع لاأمطء-لع6 ماأعط> 19474.55 
<عاتتسكباا أتامطة عاكة تغط 1[ .وسععامم 


أ ,رقسمأعة؟ 053 مأعصاعط )1 10101280 1015ع00> 15446.13 
<320 اإأع لتق ,لسوأكدع)1 ركاوء ل اكروع طكنا1؟ 


150 35 عاك ع122002115 عط)غ 01 كطرءاطمء2> 15082.65 
<قسصتعة؟ 0537 ركادء؟515 الع اتروع طادنا1) 


غ10 عل0 تاعس طعتططا؟ ,5تتا0 إممط :5< )131-> 8 6ش0هش*ظ1 
<320 وعستاعصا) ركادء لاوروعطكنا1! 


أطوته ركعطكت؟ أمط طاتى ملغط صق عوامء عدم مص> 15070.74 
<لقصاع2؟ ركاوء 55 


4 320 غهط ,نممو طاقط عط) "10 0عع2 أمععمن صج> 13807.29 
<لمة كدام 220 دعطاكن1؟ 


13790.39 .لمعت 1 أمط؟ تمصا أقط 0ج عألطت معن‎ 1 220 ١ 
010 <ودو11 <81401> حأقطا 0ند دعطكنا!؟‎ 


مط <1138<>1):18><آ2)13> دعالععم لسه كسام لتد> 13790.39 
<,5162]1285 ر125كنا11 2010 320 


معط .تومل أمط لإلعومععأعتاط هق نه لاعط كد ملعك 13579.00 ١‏ 
<حتده"ظ لعالنا كوه (00ط عط) 


لظ كدق طلت؟ أخمط 'زاعسأععائتاط 825 023ضنا1111<5>> 13574.27 
١‏ <21016 ول 
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5 أمط '(أومأععاذتاط طعند أقطاصمء ©) ل0عموئزوعل0> 13539.29 
حقة ععا! نمم" سامء 5121 ممدع عا 


يعتقتال أمط لاإأعمععاوتاط ه 0ع05زمء عحكقط 1١16‏ :5210> 13517.17 
<182) بوأتهقس أ لم5 طاتر عمملد 


لتلتقتاط 0ة أمط صا “تععصمك جه زللدأععمكع ذأ ولط1 .> 9875.08 
دعطا كة طعناد ركعأق تأ 


0ضة أمط صضآط 1330م معطت ,أكأتامط 25*00 لاكامم !> 9866.32 
<3)101 اده 1< 11><وء )وترتكء لتصتسط 


أ لاضع أمط 3 “09 عهأكداد ل؟اعقصاط لصننه؟ للط2> 9676.71 
<م شضاعط عالط عم 2 لاناتك أقأتت 


30 لتتصتط لصة أغمط زلطمعدعطصنا عط وق كرع11 1ن 5> 9027.15 
<)ت1] ؤأ لإلعدعء5 عط 


5 506 أم2 ق 0965 55ح ق[و ع] ذا )"دمل 1 <01)>> 8424.17 
<0هة لدع ل0ممع 8 


505 أمط ه “096 وسمأحداد تزلوصتكه! دكتامط أدعمد ع5 8341.5 
<28أ5أ"امناد إالتقط 5*)ز رعومللهتد 


عطا دأ ع؟5)0 أمظ ق 06 عستلكداد ع2 01ز معطم أغانط> 85334.75 
<اع)80 عط كه مسعطء) لكا 


0 غ20 3 *ا09 5139285 كتتتامفط لتعم؟5 1١١١0111:‏ <> 8334.75 
<لعدسقط عد أبط بمعطاءيل! قط دا 


ووم ووه وقوه ومه 


قوء قططءاقط أمط ع)سنه0؟9؟ * كلفستلستن عطا عستأحكل> 8135.44 
<وعق2ع221أ عع19 مط # وق 


'وعاءقططءعغفط أمط' ع"اممط سععع بكاوم 202ص "نتاكصا ع2أوأتي 7822.09 
<283 ماع00 رعس عط ععازا 


لد وكاعقططءاقط أمط عط عق ع زود12) كعم عطا عوسصتصس> 7820.46 
<15قأعع6م5 1011101082005 


ككأءةططءاقط أمط لتة ,20 منامع مادأ أطوتأمتاد 0ع 11> 7820.46 
<<اأعط) معو ما أععمء ىو 


ككاأعةططعقفط أمط الدع نوعط أقطة عصتص كه ع05ط) نإط صعتمط> 7820.46 
<16ط) عاكلا .وتقق 5أا"امم5 210101 
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7816.97>00 45 ركاءع28ط1ع)2ط هآ 20513 رواء2200 عاكل-طوتط‎ ١85 
<ذك1] الروع15 31 111و‎ 


ههه أمط عط ترق 500111111615 ماعط قضة ,39هأم135ل> 7356.70 
<ع 781221 عع طاتمعامء 5 دأ 0ك وللتصتتط 


لتسصنط عه أمط لزع صأ 0ك ,5011 15 طعنام0ل ع1) عاأععطك> 7120.72 
<101 )1 )612"اع أتذآأء" ,لاع 172 


0 01 أمفط نوء؟ 1 <011) 17> :عاوطا ومتلوظ <ا>.م )> 7174.93 
«تاعطعالء! ننا80 11 "زه بمعطادء؟ 


أقطا لتتتقط 30ج أمط 0د ماعطادء؟7 صل 0235 1نا10 0233 2> 7037.53 
<ع11 .0160 لمعم لونرء ع5 


.72)1163 غ120 دأ عع 26111050 للتقتتط 3 مستمأاسدتتد لصح> 7035.44 
<ع1) تره؟ 0ع0هطه )ز مععءع1 


لتصقتط أمط 02 .«عطاوء؟ عط لوط 0عاعع241 179)يدم 5ل> 7020.37 
حدة011م 01 كأاسنامتمة عع3! 235ل 


لتسصنط عزه غمط جرع .عداءععيعء الامطالط معت عاعها)جه> 7005.79 
حأ عاقتد الال معطاوءم 


1000 غمط 2ه عاقط 320 دل 523 3011 عكتاوهءء 0017105> 5465.49 
<12022 امع 80101 لاعطال؟ 


جوعع! 0غ *0003) امعط“ ه 0 تفط عتاأوعط) عطا )عه بإ«سعطد ه> 5462.31 
<.لنإوط )3 لاق عط 


تلطا «اعاكه 0003 أمط ه مغصا علدعط نإدنا علط لعمم1ل 86> 5448.56 
<و*اأطعتص! 01 دم عه 


طال؟ 0003) أمط ع 1*5ؤ -وعم510 عغطا مجمل 011 0هعط 01 نر> 5448.26 
اعت أمعامم زاأعسسعتاجء مه 


<0003) أمط ه كه عمتععط ك2 ععر طسك عط غسط> 5440,70 
<لعترععء5 نإعغط) داع01ط) دسء؟1آ 


0003 غه0' عط 0ع0تته0ط ,ستامقطكة4 22003 عنع20ع1> 5414.71 
<ع1 2222820107 أوء أده 3 5ج اعع 0تناا 


شكل (7-"): نتيجة الاستعلام عن كلمة ")وط" 
مُفهرسة تنازليًا حسب الرقم القياسي 
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يقدم الشكل (5-”) نتيجة الفهرسة لكلمة 704" وفقًا للقيمة القياسية لكل 
سجل. ومن هذا الشكل يمكننا ملاحظة أن أكثر تصاحبات تحتوي كلمة 001" 
هي "5ع كد11 أمط" و"لتتصتاط 0مه أمظ" وما إلى ذلك. ويمكننا أن نلاحظ 
كذلك أن أي تغير كبير في القيمة القياسية لسجلات الفهرسة يشير إلى 
استخدام جديد لكلمة '701". ولذلك فإن التغير الذي يحدث في القيمة القياسسية 
لسطر الفهرسة يمكن أن يشير إلى بداية ظهور استخدام جديد للكلمة موضع 
البحث. 


*- أثر مجموعة المتغيرات التي تحتاجها البرمجيتان على عمليات التحليل 

ا ؛' 

قبل استخدام البرمجيتين الإحصائيتين سالفتي الذكرء يُطلّب من 
المستخدم إدخال عدد من المتغيرات اللازمة للبرمجية؛ مع تحديد اسم 
البرمجية المستخدمة (0106816© أم 181م19): وبعد ذلك يقوم المستخدم 
بتحديد الكلمة موضع الدراسة وعدد السجلات التي سيحتويها ملف الفهرسة؛ 
التي سيتم حساب النتائج على أساسها؛ ذلك لأن النتائج تختلف تبعًا لاختلاف 
حجم الملفات التي يجرى التحليل عليها. هذا بالإضافة إلى ضرورة تحديد 
طول النص قبل الكلمة موضع البحث وبعدهاء وأقل قيمة لعدد مرات ظهور 
التصاحبات في إطار هذا الطول. وفيما يلي نعرض بعض الخبرات التي 
اكتسبها سنكلير من استخدام هاتين البرمجيتين. 

)١(‏ حجم ملف المدخلات 

ليس هناك حدود تتطلبها برمجيتا الإحصاء تجاه حجم نص الفهرسة» 
فكلما زاد حجم نطاق ملف الفهرسة زادت مصداقية النتائج. وتشير الجداول 


2143 


(9-ئ)ء 


و(9-م)ء 


و(*-1) إلى النتائج الإحصائية للتصاحبات؛ التي تم 


التوصل إليها عن طريق استخدام برمجية كولوكيت "001100216" اجبككم 
تحتوي فدود6 وففةكع ٠‏ سجل على التؤالي» ففي 
ذلك الوقت تم اختيار سياق يصل إلى لع ل يا 


ملفات فهرسة 5 


جدول ل -4): نت 


كلمة مط" اد 8 | درجة الت 
20010 161 0039 
1101 601 0.167 
الوبق 12309 0351 
11251 2221 056 
01 | 1 11060 00214 
5011 1421 03143 
علنسه 123/1 170 
ا 20077 0)6) 
110 253549 7_) 22 
231 4456 106 27 
1ط 2[00 1.1 31 
اك 231023 04 
111101501 2530063 0,58 
2225) 12155 3.0 
0 | 4108 1.60 
1 52 009إ2ذ2 1.1 
:| 4079 0225 
1 ا[ 12230 117 
10 23003 04 
]عع 2105 60012 1.7 
527721 32آ2 8 ”خذ2 
لا 1341 13 


الكلمات المتصاحبة مع 


تيو التطيل ظلى: عذد 0ه سجل مفهرس 
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عدد مرات ظهور الكلمة المتصاحبة. 
. داخل ملف السياقات 
11 


جدول (5-8): نتيجة التحليل على عدد ٠٠٠٠١‏ سجل مفهرس 


بنج جم ٠‏ المتصاحية في الشخيرة 0 السياقات - 
©7016 09 0027 23 ا 
5 165 ا 019 0 29 
1110255177 171 015 24 
م0 | 161 016 22 8 
52110 117 013 12 
41 120 016 12 
لكان تط 302 5 09 34 
4 163 017 014 | 
ع طون11 621 038 51 
00167 167 0.161 11 
م1 415 0401 24 
1125210 200 021 
يد اناك 234 
تناك 25210 
10 409 
كا الك 764 
تإده8 308 | 0,38 14 
ع ع 1 252 | 02072 12 
10و56 254 0014 0000 
00ج | 285 0275 11 
اينف فك 034) 0622 23 
عستسيةء 8 420 0046 | 15 
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كا الصا وه ا سو تايزين 


حب 5 


0167 فا 


00 1 022 18 
ا 21[1ظ1 إازكال 73 
8 
11 30 
22010 
|0 255196م22ط1 
11006111 
كم ' 
201110 1 
0010 12600 111 ا 028 25 
12101677 50 ا 02 13 
ع1 104 0251 22 
120 163 4) 32 
12200 04 05 12 5 
٠‏ لاأ1صط 1601 05309 20 
001711 مر 2302 0227 6060 
1120 6001 19 112 
51077 117 0223 19 
م512 0210 208 1049 
5111110 09 0.7 11 
5111111 11/0 ا 01 
| 1285857 167 ا 03 


ونلاحظ من الجداول الثلاثة السابقة أن التصاحبات ' 
حي ار رار لصي بجوي 
مصدافية أعلى. 


(؟) طول السياق 
يُعْتَبّر طول السياق هو أحد المتغيرات التي يُطلّب من المستخدم 
تحديدها. غالبًا ما يتم تحديد السياق في اللغة الإنجليزية بأربع كلمات قبل 
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الكلمة موضع البحث وبعدها. فالسياق المصاحب للكلمة هو أحد مؤشرات 
المعنى لهذه الكلمة. فإذا كان لدينا كلمة متعددة الدلالة» فإن السياقات التي ترد 
فيها هذه الكلمة من الممكن أن تُعَبّر عن معاني تلك الكلمة في حالاتها الدلالية 
المختلفة. ولذلك فإن هناك ضرورة لتحديد السياق المؤثر في الكلمة والذي 
يشير إلى عدد الكلمات التي ترد قبل وبعد الكلمة موضع الدراسة؛ وذلك من 
أجل اختيار طول السياق الذي يُقَدُم أفضل نتيجة للتحليل. 

فإذا استخدمنا برمجية كولوكيت 80ع00110© في دراسة كلمة معينة» 
وفي كل مرة من مرات الاستخدام نقوم بتغيير طول السياق» ونحتفظ بباقي 
المتغيرات دون تغييرء سنجد أن المخرجات التي تقدمها البرمجية تختلف في 
كل مرة. ويشير الجدولان (7-؟)؛ و(6-5) إلى نتيجة العمل على كلمة 
"هلإ6”؛ وذلك من خلال ملف فهرسة طوله ©٠0٠٠‏ سجلء على ألا تقل عدد 
مرات تكرار التصاحب عن ٠١‏ مرات؛ ولكن مع تغيير السياق؛ حيث يشير 
الجدول الأول إلى النتيجة عندما يكون طول السياق كلمتين قبل كلمة "6لا" 
وبعدهاء والجدول الثاني عندما يكون السياق 5 كلمات قبل كلمة "هله" 
وبعدها. وفيما يلي نعرض نتيجة تشغيل البرمجية على السياقين المختلفين. 
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جدول (8-/0: نتيجة التشغيل على سياق طوله 
كلمتين قبل كلمة 'عنرع" وبعدها 


الكلمات المتصاحبة مع 
كلمة "63:6" 
15677 
اناقططاء )11 
107 
111110 
ل اك 
اع1 50 
لستاظ 
وعطءع 0 
اننا 
 [‏ 
خطع نا 0) 
121 
001 5565 
117 
10 
115 
أعد اده ) 
طع )د12 
520165 
عسططء )0 
معءكآ1 
طععه0) 


)| عدد مرات ظهور الكلمة 
المتصاحبة في الذخيرة 


1 2173 
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ا 


جدول *-5 نتيجة التشغيل على سياق طوله سث 
كلمات قبل كلمة "عو" وبعدها 


الكلمات المتصاحبة مع كلمة 


0 الكلمة المتصاحبة 
1 في الذخيرة 


مع 185010 
تفنكاةا 
10 
لتاقطء )ج11 
أستا 
علكلسال 
2002011 
ع1 
0 امنا 
الاق 
5ع 501 
علدنا 
أعل 50 
القع 
لسناظ8 
وعلط 02 
1 
درداعء1121 
لك أن 
أخطع نا 0) 
5مأرء >1 
11 


فقي مسارم عمد لمت 
التضاح داخل ملف الشياقاتك - 

0119 | 0.043 24 
59 06 13 
174 0063 20 
346 0125 36 
241 0,27 21 
249 020 18 
165 0271 13 
221 001 0( 14 
29 0.20 13 
205 5 0107 14 
256 017 12 
307 04 15 
464 0138 16 
1054 0,2 20 
4041 1,070 50 
01ظ10 0532 26 
| 5.926 242 
5826 0259 12 
3456 1.63 

54 1201 

18 14 12104 
1612 


ويمكننا أن نلاحظ أن الكلمات المتصاحبة مع كلمة "وه" مثل 
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'66203"» و'لنقطءغة؟",: و "62 9وترء"" وغيرها لها نسبة ظهور واضحة في 


الجدولين» فضلاً عن أن بعض الكلمات التي لها درجة تصاحب عالية فسي 
الجدول (7-7) (مثل الكلمات "طء)هم"؛ و"ووعم)1؟") لا تظهر في الجدول 
(8-5)؛ أو أن لها درجة تصاحب ضعيفة. والسبب في ذلك يرجع إلى كون 
الكلمات التي لها درجة تصاحب عالية من خلال السياق الذي يبلغ طوله 
كلمتين ستظهر في السياق الذي يبلغ طوله ست كلمات. ومن هناء فإن درجة 
التصاحب الواضحة لهذه الكلمات في السياق الأقل سوف تَضنْعُف؛ بسبب 
تأثير الكلمات الموجودة في السياق الأكبر في نتيجة المعادلة. هذا بالإضافة 
إلى أن:الكلمات التي لها درجة تصاحب أعلىء أو تلك التي تتمتع بحرية 
سياقية كبيرة سيتم الاحتفاظ بها في جدول التصاحبات السُنْتَخْرَجٍ من السياق 
الذي يبلغ طوله ست كلمات؛ وذلك مثل كلمة "73161 التي لا تظهر إلا بعد 
كلمة '8/إ©"؛ ولذلك فقد ضعفت قيمة تصاحبها مع كلمة "©/[6" بسبب الكلمات 
.التي تظهر دائمًا مع كلمة "6لا6" في سياق الست كلمات. وفي الجدول (*- 
4) نجد أن كلمة 89800106 لها درجة تصاحب عالية مع كلمة "هلاه"؛ 
ولكنها لم تظهر في الجدول 5-/؛ وذلك بسيب أن كلمة "770106656 تُستتخدم 
دائمًا في التعبيرة ")56810106 158 01 علاء 156 16". ففي هذه الحالة 
نلاحظ أن كلمة */600106” ظهرت خارج إطار السياق المُحَدّد بكلمتين مع 
كلمة "©لإ©". وحتى يمكن التغلب على هذه الظاهرة: يمكننا إضافة معلومة 
تحدد موضمع كلمة التصاحب من الكلمة موضع البحتث عند اس تخدام 
البرمجية» على سبيل المثال الاكتفاء بالكلمات التي تأتي بعد الكلمة موضع ٠:‏ 
البحث أو قبلهاء ففي تلك الحالة سترتفع درجة وضوح التصاحب. 


(؟) الحد الأدنى لعدد مرات ظهور التصاحب 

إن الحد الأدنى لعدد مرات ظهور التصاحب هو تحديد أقل قيمة لعدد 
مرات ظهور التصاحبات التي تتم عليها عملية الحساب داخل ملف السياقات. 
وقيمة هذا المتغير تتحكم بشكل مباشر في عدد التصاحبات التي تقوم 
البرمجية بانتخابها. فإذا كانت حدود هذه القيمة ضعيفة» فسوف تستغرق 
البرمجية وقت تشغيل أطولء وقد ينتج عن عملية التشغيل وجود بعدض 
الأخطاء في النتائج؛ وعلى العكس من ذلكء إذا كانت تلك القيمة كبيرة: 
فسوف يودي ذلك إلى إهمال التصاحبات التي لها نسبة ظهور واضحة. 

إن الغرض من تحديد عدد مرات ظهور التصاحب بأقل قيمة هو 
استبعاد الكلمات التي بها خطأ في الكتابة أو أسماء الأعلام وغير ذلك من 
الكلمات التي تظهر مرة أو مرتين داخل الذخيرة. ويمكننا أن نلاحاظ من 
الجدول رقم 3-17 أهمية تحديد عدد مرات ظهور. التصاحب بأقل قيمة. 
ويمكننا أن نكتشف من الجدول أن الكلمات الأكثر تمثيلاً للقوة التصاحبية مع 
كلمة "7310 قد ظهرت مرتين في مجمل الذخيرة» وعلى الرغم من أنها 
ظهرت مرة واحدة في تصاحب مع كلمة "257350 فإن هذه الكلمات تتمتسع 
بدرجة تصاحب عالية مع الكلمة موضع البحث. ونلاحظ من الجدول أيضا 
أن كلمة "98076177 بها خطأ في الكتابة؛ حيث ينقصها مسافة فارغة في 
الوسطء والكتابة الصحيحة لها هي "1587 964'. 


جدول (”-1): تأثير تحديد عدد مرات ظهور 
التصاحب بأقل قيمة في نتيجة البرمجية 


الكندات_امتساحية ٠‏ عند مراك ليور الكلمة ٠‏ قيمة وضوح عو ل 
مع كلمة 22107" ١‏ المتصاحبة في الذخيرة | 


1م 


15012 
10 1ك 


رع طااء) 


[ 1 


منأزسك]1 
»| 


|8751 


5 م10كاء.]1 
1 زوع 1 ل" 
1121 

اشح 


لكالل ناكا 
]121 
21 زسطء اع 120 
اوليك 
وك نالواائك 
وتاتاك 
11 
112220111 
ستاودء 177 
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_ 


شر يم | تم ]| تم | تم ]تم تم | شم إ تم إيم | شم | شم | شم | شم | شم | شم | سم | شسم | خسم | خسم 
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وبصورة عامة» فإن قيمة المتغير الذي يتم إدخاله» ينبغي أن تتغير تبعًا 
لتغير طول السياق. فعندما يكون طول السياق قصيراء تكون تلك القيمة قليلة؛ 
وتزداد هذه القيمة تدريجيّا مع زيادة طول السياق. 
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الفصل الرابع 
ترميز الذخائر اللغوية 


إن تجميع عدد كبير من النصوص في لغة ما وتخزينها في الحاسب 
الآلي. يُكوّن ذخيرة لغوية هائلة الحجم. وبعد عملية التجميع» يسعى الباحثون 
إلى استخراج المعلومات التي يحتاجون إليها من هذه الذخيرة؛ على سبيل 
المثال إنشاء مُعْجَمم لغوي أكثر جودة؛ أو دليل نحوي يعتمد على بيانات لغوية 
واقعية؛ وذلك من أجل فهم اللغة واستخدامها بشكل سليم وناجح. ولكي يمكننا 
استخراج المعلومات من الذخائر اللغوية المختلفة» فمن الضروري البدء بعمل 
تحليل للذخيرة اللغوية على مستوى واحد أو على عدة مسئويات» بالإضافة 
إلى ترميز العناصر التي تنتج عن عملية التحليل داخل متن الذخيرة اللغوية؛ 
ومن ثُمّ إعطاء قيمة مضافة أعلى إلى الذخيرة. وهذا ما يُطلّق عليه ترميز 
الذخائر اللغوية. إن عمليات ترميز الذخائر اللغوية تم قبولها على نطاق واسع 
باعتبارها المدخل الأساسي للتعامل مع الذخائر اللغوية. ويناقش المرجع رقم 
[54] بالتفصيل منهجيات ترميز الذخائر اللغوية على عدة مستويات لغوية». 
ونظرا إلى أن سلسلة الكتب الأخرى التي نقدمها في هذا المجال بها شرح 
لمنهجيات ترميز الذخائر اللغوية الصينية» فلن نتناول في هذا الجزء طريقة 
الحساب المتعلقة بترميز الذخائر اللغوية» وسنكتفي فقط بتناول الموضوع من 
حيث معنى الترميزء ونماذج الترميز وأنواعه. ظ 
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أولاً: معنى ترميز الذخائر 

يمكن تعريف ترميز الذخائر اللغوية كما يلي: هو نوع من التطبيق 
يهدف إلى إضافة معلومات لغوية ومعلومات توضيحية للذخائر الشفهية أو 
التحريرية. ومن الممكن أن تشير كلمة 'ترميز" إلى المنتج النهائي لهذه 
العملية: بمعنى العلامات اللغوية الملحقة بالذخائر اللغوية أو التي تتناثر وسط 
الذخائر اللغوية. ويُقصد بتلك العلامات اللغوية علامات المقاطع الصوتية؛ أو 
العلامات النحوية» أو الدلالية وما إلى ذلك. ونظرًا إلى أن اللغة الصينية 
المكتوبة لا تحتوي مسافات فاصلة بين حدود الكلمات» فإن عملية ترميز 
الذخائر اللغوية الصينية تشمل مرحلة إضافية تهتم بترميز حدود الكلمات» 
وعادة ما يُستخدم لهذه المرحلة من الترميز مسافة فارغة بين حدود كل 
كلمتين. إن أشهر مثال في عمليات ترميز الذخائر اللغوية وأكثرها قياسية هو 
الترميز النحويء ويُطاق عليه أيضًا ترميز الأنواع النحوية للكلمات أو ترميز 
85. ففي عملية الترميز هذه يتم إضافة علامة أمام كل كلمة من كلمات 
الذخيرة من أجل تحديد نوعها النحوي. فعلى سبيل المثال "«ع؟/78جم": حيث 
نجد أن علامة "97/” تشير إلى أن الفعل "2075" ويعني 'أغلن" فعل متعد 
لمفعول اسمي. ش 

والسبب في قولنا: إن الترميز يحمل معلومات توضيحية هو أن 
الترميز في أقل تقدير عبارة عن مُنتَج يحمل فهم الإنسان للنص موضع 
الترميز. فترميز النصوص الصينية من حيث حدود الكلمات يعني إمكانية 


تمييز الكلمات من بين سلاسل الرموز المتتالية في النصوص؛ التي لا يفصل 
بينها فاصلء بالإضافة إلى وضع ترميز نحوي لتلك الكلمات يوضح نوعها 
النحوي داخل النص وما إلى ذلك؛ بالإضافة إلى ذلك فإن هناك فرقا بين كل 
من "الترميز"؛ و"الإيضاح" بالنسبة إلى النصوص. ويمكننا أن نُمَيّز بين هذين 
النوعين من المعلومات من خلال النصوص التحريرية. فالعلامات الصرفية . 
لنص تحريري يستخدم لها الحروف اللاتينية بما في ذلك علامات الترقيم 
والمسافات. وهذه العلامات يتم التعبير عنها رقميًا بعلامات خاصة داخل 
الحاسب الآلي؛ حيث تشير كل علامة إلى شكل واحد تعبر عنه؛» بمعنى أن 
العلامات الصرفية الأصلية في النص يقابلها ملف رقمي واحد يعبر عنها. 
وفي أثناء عملية التمثيل هذه قد يفقد النص الأصلي بعض المعلومات 
التحريرية» مثل نوع الخط وحجمه. وهذا أمر مسموح به نظرا إلى أن هذا 
النوع من المعلومات لا يُعَبّر عن جوهر المعلومات اللغوية التي يعبر عنها 
النص. وعلى العكس من ذلكء فإن ترميز أي نص عبارة عن وحدة ما وراء 
لغوية (15]6لا7©)8/109)؛ أي أن ما تقدمه عملية الترميز ماهو إلا 
معلومات لغوية عن ذلك النص» وليس مضمون النص نفسه. 

إلا أنه بالنسبة إلى حوار شفهي؛ أحيانا ما يكون هناك صعوبة في 
التمييز بين المعلومات الخاصة بالمضمون وتلك التي تختص بالإيضاح. وفي 
أثناء تحويل اللغة الشفهية إلى لغة تحريرية أو إلى نص رقميء يضطر 
الشخص القائم بالتحويل إلى الجمع بين نظامي العلامات المختص بالمضمون 
والآخر المختص بالإيضاح. وفي معظم عمليات التحويل؛ يتم استخدام 
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الوصف الصوتي بشكل إضافي لمزيد من المساعدة وذلك بالإضافة إلى 
الكتابة الأبجدية؛ ولكن هذا التدخل يتيح إمكانية القراءة الصوتية بشكل 
سطحيء أما فيما يتعلق بالطبيعة المادية أو اللغوية أو الاجتماعية للنص فهذا 
سترى طق بذرجة كبيرة :مق الصلعب تكقيته .على حبرل التقبال عتدد 
ترميز مستويات التأكيد والتنغيم الصوتي في اللغة الشفهية» غالبًا ما يتم ذلك 
عن طريق الحكم الشخصي للقائم بعملية التحويل من اللغة الشفهية إلى اللغة 
التحريرية» وفي الوقت نفسه يتوقف ذلك على نظام التحليل المُسْتّخْدم. 


ثانيًا: لماذا يتم ترميز الذخائر اللغوية؟ 
١‏ - استخراج المعلومات 


لا يمكن اعتبار الذخائر اللغوية ذات فائدة إلا إذا أمكن استخراج 
المعلومات والمعارف منها. وفي الحقيقة فإن استخراج المعلومات من الذخائر 
اللغوية يُحَثَّمْ من البداية غرس بعض المعلومات الإضافية» والمقصود ب ذلك 
إضافة علامات الترميز. فالذخائر اللغوية التي تمثل نصوصنا رقمية إذا لم 
تّجْنَ عليها أية عملية من عمليات المعالجة يُطْلق عليها ذخيرة لغوية خام 
(ودامءه» 88:)» فمثل هذه الذخائر وعلى الأخص الذخائر الخام الصينية 
ينقصها المعلومات الصرفية والنحوية وما إلى ذلك مما يجعل قيمتها ضئيلة 
إلى حدٌّ كبير. على سبيل المثال: كلمة "1656" في اللغة الإنجليزية باعتبارها 
كلمة مضادة في المعنى لكلمة "4طعفم"؛ كما في "20هط 16,6 تإزدم"؛ وفي الوقت 
نفسه يمكن لهذه الكلمة أن تأتي ظرف مكان فنقول1©4 ««د". أو اسمًا فنقول 
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"1616 «ناوئز ده". ولكن إذا تم النظر إليها على أنها صيغة الماضي من الفعمل 
"ع جوع 1" سيتم تحليلها باعتبار ها فعلاء مثل '19:د» :161 1" ومن هنا فإن كلمة 
11" لها عدد من الاستخدامات. إلا أن هذا التعدد في المعنى لهذه الكلمة لا 
يمكن تمييزه بوضوح في ذخيرة لغوية خام لم يتم عليها أية عملية من 
عمليات الترميز. وهذا النوع من الذخائر سيكون به قصور شدديد إذا تم 
التعامل معه كمصدر من مصادر صناعة المعاجم. أما إذا تمت عمليبة 
الترميز النحوي للذخيرة» فإن كل مرة تظهر فيها كلمة '656!' سيكون أمامها 
رمز يوضح نوعها النحويء وهذه المعلومات من شأنها أن تساعد في تحسين 
العمل المعجمي. ومثال آخر في مجال التطبيقات الخاصة بتحويل النصوص 
التحريرية إلى نصوص منطوقة (طاءءءم5 10 )<دع1)» تحد أن كلمة 1680 في 
اللغة الإنجليزية عندما تكون اسم تَتَطّق /180/: وعندما تكون فعلاً تنطّق 
/0 : 11/. فإذا كنا بصدد تطوير برمجية ناطقة (بمعنى تحويل مُذخلات 
الحاسب الآلي من نصوص تحريرية رقمية إلى مُخرجات صوتية) فإن هذه 
البرمجية سيتحتم عليها أن تُمَيّز ما إذا كانت كلمة 1080 اسما أم فعلاً قبل أن 
تنطقها نطقًا سليمًا. فضلاً عن أن اللغة الصينية تنتشر بها ظاهرة الرموز 
التي لها أكثر من نطقء مثل: الرمز "7" الذي يُنطق '2عموط” كما في 
"4847" بمعنى بنك»: وينطق '22«عهة" كما في كلمة "لثر77" بمعنى المارّة. في 
ذلك الوقت وعند القراءة الصوتية للنصوص التحريرية ستكون هناك حاجة 
لترميز الرمز "47" حتى تتمكن الآلة من نطقه بشكل سليم. ومن هنا فإن عمل 
ترميز صرفي ونحوي للذخائر اللغوية من شأنه أن يُقَدّمْ المعلومات التي 
تحتاجها تلك البرمجية الناطقة. 
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؟ - تعدد الاستخدام 

إن المقصود بتعدد استخدام الذخائر اللغوية التي تحمل علامات الترميز 
هو إمكانية إعادة استخدام المصادر اللغوية التي تقدمها تلك الذخائر غير 
مرة. ويعتقد البعض أنه لا حاجة إلى إضاعة الوقت والمجهود في أعمال 
ترميز شاملة للذخائر اللغوية» وأنه يمكن الاكتفاء بتصميم برمجية ذكية تقوم 
بتمييز الأنواع النحوية للكلمات؛ مثل كلمة 16/6" حيث يتم التعامل معها 
باعتبارها صفة إذا جاعت قبل اسمء ويتم التعامل معها على أنها ظرف مكان 
إذا جاءعت بعد فعل»: وهكذا. ولكن تنفيذ الأمر على هذا النحو يشوبه عيبان: 

)١(‏ يشير المثال السابق إلى أننا إذا أردنا تمييز إحدى الكلمات» فمن 
الضروري أن نتعرف سابقًا على نوع الكلمة التي تسبقها. ول ذلك 
فإن تمييز نوع الكلمات لا يمكن النظر إليه بمعزل عن الكلمسات 
المحيطة بالكلمة التي نرغب في ترميزها. 

)١(‏ الهدف من عمل الترميز النحوي وغيره من مستويات الترميز 
للذخائر اللغوية هو: تحويل المادة اللغوية التي تحتويها الذخيرة إلى 
مادة ذات قيمة أعلى» وهذا الغرض يتحقق بمجرد إضافة مستويات 
الترميز المختلفة؛ حيث تتيح هذه العملية الذخيرة للآخرين كي 
يستفيدوا منها. إن عمليات ترميز الذخائر اللغوية مكلفة ومُمتتنفذة 
للوقت؛ ولكن كل ذلك المال والجهد يكون في محله إذا أمكننا تنويع 
استخدامات الذخائر. 
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“'- تعدد الوظائف 

إن الذخيرة التي تتم عليها عمليات الترميز غالبًا ما يكون لها أفداف 
وتطبيقات مختلفة» وهذا ما يُطلق عليه تعدد الوظائف للذخيرة اللغوية. ففي 
الجزء السابق تحدثنا عن وظيفتين مختلفتين: للذخائر اللغوية المُرمّزة وهما 
الاستخدام في صناعة المعاجم وإنتاج تطبيقات القراءة الجهرية للند صوص 
التحريرية. ويضاف إلى ذلك أن الذخائر المَّرسَّرَة يمكن أن يَنْنَّجٍ عنها 
تطبيقات أخرى في مجالات هندسة اللغة» مثل الترجمة بمساعدة الحاسب 
واستخراج المعلومات من النصوصء وما إلى ذلك. وهكذاء فإن عمليات 
الترميز من شأنها أن تحقق 'قيمة مضافة" للذخائر اللغوية بكل ما تعنيه 
الكلمة. والترميز النحويء باعتباره أحد مستويات الترميز الأساسية؛» ما هو 
إلا تمهيد للمستويات الأعلى من الترميزء. على أساس أن هذا النوع من 
الترميز هو الخطوة الأولى نحو الترميز على مستوى بنية الجملة والترميز 
على مستوى الدلالة. ونظرًا إلى وجود العديد من المستخدمين الذين 
سيستفيدون من الذخائر اللغوية المُرَمّزة» فسيأتي من ضمنهم من يتمكن مسن 
تفعيل استخدامات الترميز بشكل لم يرد في تصور مصممي .عمليات الترميز 
من البداية؛ الأمر الذي يزيد من أهمية الأدوار الإضافية التي تلعبها الذخائر 
اللغوية المُرَمّزة في مجال العمل اللغوي. 
ثالثا: التوحيد القياسي لعمليات ترميز الذخائر اللغوية 

إن مستوى "الخبرة"' الذي يتمتع بة القائمون على ترميز الذخائر اللغوية 
وقياسية علامات الترميز المستخدمة ومدى منطقيتها وقابليتها للاستخدام كلها 
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عناصر يتحدد على أساسها مدى فائدة المعلومات التي بُقدْمُها ترميز الذخيرة 
اللغوية وإمكانية احتوائها على معلومات يمكن التعامل معها. ففي الفترة 
القصيرة من تاريخ علم ترميز الذخائر اللغوية» كانت أنظمة الترميز التي 
يقدمها العاملون على بناء الذخائر اللغوية صعبة الاستخدام من قبّل الآخرين 
لدرجة أن هناك بعض الحالات كان يستحيل استخدامها. وحتى يمكن تجنب 
هذه الظاهرة» ينبغي تحقيق المعايير التالية في تصميم أنظمة الترميز: 
-١‏ إمكانية استعادة النسخة الخام للذخيرة اللغوية بعد حذف علامات 
الترميزء وبعبارة أخرى إمكانية استرجاع أصل الذخيرة. 
؟- إمكانية استدعاء المعلومات التي يتم ترميزها بشكل مستقل عن 
الذخيرة» مع إمكانية حفظ النتيجة عند الحاجة إلى ذلك. 
“- إمكانية قيام مستخدم الذخيرة بالاطلاع على مستندات تحتوي 
المعلومات التالية: 
أ) المنهجية المتبعة في الترميزء أي الحصول على مستندات تحتوي 
وصفا وشرحا للمعايير التي تم الاتفاق عليها في عمليات الترميز. 
ب) مستندات تضم أسماء القائمين على عمليات الترميز والمكان الذي 
تمت فيه والمنهجية المُتبعة. : 
م 
ج) شرح تفصيلي لما يتعلق بالخطوات التي اتبعت لضمان جودة 
الترميز؛ وذلك نظلا إلى كثرة حدوث الأخطاء واللبس الذي يحدث 
في أثناء عمليات الترميز بسبب عدم توحيد المعايير المٌسْتَخدَمة؛ 
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ويُذْكر على سبيل المثال: تسجيل المستوى الذي وصلت إليه 
عمليات مراجعة الترميزء والنسبة المئوية للأخطاء التي تم اكتشافها 
في أثناء عمليات المراجعة» والمستوى الذي وصلت إليه عمليات 
توحيد معايير الترميزء وما إلى ذلك. ظ 


د) وضع إشارة للمستخدم مُفادُها أن عمليات الترميز التي تمت على 
التخيزة ليبث مظلقة ونه له يمكن كجتب وجود قد من الأخطاءء 
وأن الذخيرة لا تخرج عن نطاق أنها مصدر لغوي تتحقق الفائدة 
منه عند حد معين فقط. يقتصر الغرض من إتاحة معلومات عن 
المنهجية المتبعة في الترميز على تقديم مرجعية يمكن الاستشهاد 
بها والاستفادة منها وقت استخراج التطبيقات المختلفة من الذخيرة 
اللغوية. وفي تلك الحالة» سيكتشف العديد من المستخدمين أن هناك 
فائدة من استخدام الذخائر اللغوية المُرمّزة» وأن ذلك أفضل من 
اتباع منهجيات قاموا بتصميمها بأنفسهم؛ لأن هذا العمل يحتاج إلى 
إضاعة العديد من السنوات حتى يمكن إنجازه. 

ه) بناء منهجية للترميزء وحتى يمكن تجنب سوء الفهم وضمان 
حسن استخدام المتعاملين مع الذخيرة» تم الاعتماد على بيانات 
للتحليل تتصف بالوسطية ووجود أساس نظري لها بالإضافة إلى 
إمكانية الاتفاق عليها من أكبر عدد من الناس. وعلى الرغم من 
حتمية تعرض عمليات الترميز لبعض الخلافات النظرية:؛ فإن 
الغرض الأساسي من عمليات الترميز يتجه بشكل أكبر إلى الالتزام 
قدر الإمكان بمدى القبول والفهم على نطاق واسع من المستخدمين. 


26١ 


و) أية منهجية للترميز لا يمكن أن ينتج عنها ما يسمى 'بالمعايير التي 
لا تتغير". فقد ثبت من خلال التطبيق العملي أن منهجيات الترميز 
تتجه دائمًا إلى التغيّر. على سبيل المثال» نجد أن نطاق الذخائر 

. التي تم ترميزها قد يتسبب في إعاقة عمليات الترميز في المستويات 
العليا الأكثر تفصيلاً؛ لأن تحقيق الهدف الأساسي من عمليات 
الترميز يتطلب وضع أولوية للتفكير في بعض المعلومات التي 
تخص عدذا من التقسيمات التي تنشأ على أساسها منهجيات الترميز 
ونان خلق: 

على الرغم من توافر المبادئ الستة سالفة الذكرء فما زال هناك 

البعض يطالب بإقرار نوع من المعايير القياسية في مجال ترميز الذخائر 
اللغوية؛ بالإضافة إلى أن التطبيقات المختلفة في السنوات الأخيرة في هذا 
المجال قد توصلت تدريجيًا إلى إيجاد نوع من التوحيد العلمي لعمليات 
الترميز. ويتمثل أحد أسباب التوجه إلى التوحيد المعياري في الوصول إلى 
مستوى الشيوع والتعميم؛ لأنه ما إن يجد المتعاملون في هذا المجال فائدة من 
. استخدام أحد نماذج الترميزء حتى يُصرٌون على استخدام هذا النموذج لتطوير 
ذخائرهم التي سبق ترميزها. وهناك سبب آخر وهو ما سبق: التأكيد عليه من 
مبدأ تعدد الاستخدامات. فإذا رغب عدد من الباحثين تبادل البيانات أو 
المصادر اللغوية (ذخائر مُرمزة على سبيل المثال) فسوف يكون هذا التبادل 
سهلا بين الجهات المختلفة إذا ما كانت تتبع نموذجًا موخذا للترميز أو على 
الأقل بينها اتفاق على بعض المبادئ الاسترشادية. وفي حالة الحاجة إلى 
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تبادل البرمجيات التي تتعامل مع الذخائر اللغوية فسوف تبرز قضية التوحيد 
القياسي لعمليات الترميز كمطلب أساسي لإمكانية تبادل تلك البرمجيات. 


رابعا: الحدود التي يتم عندها ترميز الذخائر اللغوية 

هناك اختلاف شديد بين الحدود التي تقف عندها عمليات الترميز بين 
كل من اللغتين الإنجليزية والصينية. ويرجع السبب في ذلك إلى عدم وجود 
مسافات تشير إلى حدود الكلمات في اللغة الصينية. وتُعتّبر عملية تقسيم 
سلاسل الرموز في النصوص الصينية إلى سلاسل من الكلمات هي المهممة 
الأولى في عملية ترميز اللغة الصينية للتعرف على حدود الكلمات آليّا. إن 
تمييز حدود الكلمات في اللغة الصينية هو أحد المشروعات الأساسية المهمة 
في علم مُعالجة اللغات الطبيعية باللغة الصينية؛ وتُحقق تلك الخظوة هدفًا 
أساسيًا في مجال معالجة النصوص آليا؛ حيث تَعْتَيّر الكلمات وحدات المعالجة 
الآلية للنتصوصء وهذا ما ينبغي أن يتم كخطوة أولية يجب التغلب عليها 
بالنسبة إلى المنظومة الكاملة للمعالجة الآلية للغة الصينية. إن عمليات 
المعالجة الآلية للغة الصينية تشمل عمليات الاستعلام عن المعلومات 
واستخراجهاء والترجمة الآلية» والتحليل النحوي وغير ذلك من العمليات 
اللغوية التي لا غنى عنها عند التعامل مع الكلمات باعتبارها الوحدات 
الأساسية للتعامل اللغوي. ومن خلال جهود العلماء على مدى عشرين عامًا 
حققت اللغة الصينية إنجازات كبيرة في مجال التمييز الآلي لحدود الكلمات 
الصينية» وقد وصلت نسبة دقة التمييز إلى حوالي 9039 1'*). ولكن ما زالت 
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هناك بعض المشكلات في مجال تمييز حدود الكلمات داخل الننصوص 
الصينية لم يتم حلها بشكل جذري. وتشمل تلك المشكلات: أسماء الأعلام 
الشخصية والجغرافية وأسماء الآلات وما إلى ذلك من الكلمات التي لم تَسَجَّل 
في قوائم الكلمات التي يتم التمييز على أساسهاء بالإضافة إلى إشكاليات اللبس 
في تمييز حدود الكلمات. 


وفي الجزء التالي نستعرض المراحل التي تمر بها عمليات الترميز؛ التي 
تم التعارف عليها على مستوى مختلف اللغات: الترميز النحوي (أو ترميز 
الأنو اع النحوية للكلمات) (عدفععة؛ عناهتصتمومع)» والترميز على مستوى بنية 
الجملة (38220)2)102 عناءماصره)ء والترميز الدلالي (صمهامسعه عاسقدعم)ء 
والترميز على مستوى الخطاب (هه60ةغمهصة ءعنامء5ال). 


-١‏ الترميز النحوي 


كان ذلك هو أول مشروع لترميز ذخيرة لغوية» وقد ثم على ذخيرة 
براون عام ١917١‏ بجامعة براون الأميركية. وكان ذلك بإشراف عالمّي لغة 


ْ أشرفا على عملية الترميز هما فرانسيس 75885 وكوسيرا 78:ععناء!ء» وتنفيذ 


اثنين من باحثي الماجستير قاما باتباع القواعد المتعلقة بالسياق في تنفيذ هذا 
النوع من الترميز. وتضم مجموعة الترميز الخاصة.بهذه العملية عدد سبعة 
وسبعين رمزا. وهذه الرموز النحوية لا تَمَيّرْ فقط الكلمات من حيث النوع 
النحوي مثل الأسماء والأفعال والصفات وما إلى ذلكء بل تصل إلى 
تصنيفات أكثر تفصيلاً داخل كل نوع:؛ مثل تمييز صيغة المفرد والجمع من 
الأسماءء وتمييز الأنواع المختلفة للصفات؛ وما إلى ذلك. 
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وقد وصلت دقة النتائج التي حققتها برمجية الترميز النحوي تلك إلى 
, وقد تم تصويب أخطاء الترميز بالمجهود البشري بعد ذلك؛ وفي 
النهاية تم التوصل إلى مُدْنَجِ ذي فائدة عاليةء ألا وهو ذخيرة براون المُرمّزة 
نحويًا. ويرجع مغزى هذا العمل البحثي إلى أنه أظهر لأول مرة الخصائص 
العامة لترميز الذخائر اللغوية. فمن ناحية» أظهر هذا العمل الفرق بين العمل 
الآلي والعمل اليدوي في ترميز الذخائر اللغوية؛ حيث أكد حتمية أسلوب 
الترميز الآلي» مع ضرورة أن يَتبّع هذه المرحلة عمل يدوي مكثف ومجهود 
شاق في عمليات المراجعة والتصويب. فالترميز اليدوي والترميز الآلي 
عملان يكمل كل منهما الآخرء ولا يمكن بأي حال من الأحوال الاكتفاء 
بالترميز اليدوي فقط في إنجاز تلك المهمة. ومن ناحية أخرى فإن الترميز 
الآلي لا يمكن الاعتماد عليه إلا بعد أن يصل إلى درجة عالية من الدقة في 
الترميق؛ 

والمشروع الثاني للترميز النحوي تم تنفيذه عام ١187‏ على 'ذخيرة 
لوب 1,08. يتمئل وجه الاختلاف بينه وبين المشروع السابق في: تطبيق 
منهجية الاحتمالات الإحصائية على الذخيرة اللغوية موضع الترميز. وقد 
اعتمد هذا المشروع على ذخيرة براون المُرَمّرَة نحويًا كمصدر للإحصاءات 
اللغوية في حساب احتمال تحول علامتي ترميز نحويتين داخل ذخيرة لوب ٠‏ 
وغير ذلك من المتغيرات. وقد وصلت دقة برمجية الترميز النحوية تلك إلى 
وأطلق عليها سم 01,4781 ومعنى ذلك أنه بالمقارنة بالبرمجية 
الأولى التي اعتمدت على القواعد كمصادر للترميز» فإن دقة الترميز بينهما 
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قد قفزت قفزة واحدة بمقدار .90٠١‏ بعد ذلك» ظهرت تباعا العديد. من 
برمجيات الترميز النحوي التي اعتمد معظمها على نظرية الاحتمالات 
الإحصائية. والمشكلة الوحيدة في تلك المنهجية هو احتياجها إلى ذخيرة لغوية 
سبق ترميزها للتجريب عليهاء بالإضافة إلى أن طول السياق يكون محدوذا 
في أثناء حساب الاحتمالات؛: بمعنى ضرورة الاكتفاء بكلمة أو كلمتين يمين 
الكلمة موضع التعامل أو يسارها. وقد بدأت دراسات الترميز النحوي للغة 
الصينية في نهاية الثمانينيات وبداية التسعينيات من القرن العشرين» وكائنت 
أول جهتين تقومان بعمل دراسة عن الترميز النحوي للغة الصينية هما جامعة 
شين خوا وجامعة شان شي. 
" - الترميز على مستوى أبنية الجُمّل 

المقصود بالترميز على ممنتوى أبنية الجُمل إضافة معلومات تبين 
الأبنية النحوية لجمل الذخيرة اللغوية. إن أول من طرح فكرة دراسة ترميز 
الذخائر اللغوية على مستوى بنية الجمل هو العالم إليجارد (9مووه511)! '!؛ 
حيث قام هو وتلميذ له عام 19174 بعمل تحليل نحوي لجزء من ذخيرة 
براون (حوالي ١١86٠٠١‏ كلمة). ومع حلول ثمانينيات القرن العشرينء بدأت 
جامعة ناجميجن (101[1776960)!''! وجامعة لانكاستر (/1)3702516”'! في 
إنشاء برمجية يمكنها إجراء تحليل نحوي لذخيرة لغوية. ومع بداية 
التسعينيات» أثبتت بنوك التحليل الشجري (82015 1:86) أن الذخائر 
| المُرَمّرَة على مستوى أبنية الجمل هي أحد المصادر المهمة في مجال 
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المعالجة الآلية للغات الطبيعية. على سبيل المثال» في أثناء تمييز الأصوات 
اللغوية ومجال الترجمة بمساعدة الحاسب تكون هناك حاجة إلى برمجية قوية 
للتحليل على مستوى أبنية الجمل. ويصل بنك لانكاستر- آي بي إم 
(18231/,ء)5ق1,30) للتحليل الشجري إلى ثلاثة ملايين كلمة» أما إنشاء بنك 
جامعة بنسلفانيا”'! فقد أضاف قطاعًا عريضًا من مستخدمي هذا النوع من 
المصادر اللغوية؛ حيث استخدمت تشيلبا (8618©) من جامعة جون هوبسكن 
بنك التحليل الشجري هذا في تأسيس نموذج لغوي يعتمد على الأبنية 
النحوية!“ا؛ وحلّت بذلك مشكلة التصاحب اللغوي طويل المدى في النصوص 
اللغوية؛ وحققت التجارب المبدئية لهذا النموذج نسبة دقة عالية في تمييز 
الجمل. ويشير مصطلح بنك التحليل الشجري إلى أن شجرة التعبيرات اللغوية 
هي الوحدة الأساسية في عمل ترميز الذخائر اللغوية على مستوى الأبنية 
النحوية. إن مشروع الترميز على مستوى أبنية الجملة أكثر تعقيدًا وله 
احتياجات أكثر تقدمًا من مستوى الترميز النحوي للكلمات. ولذلك تأتي 
الدراسات المتعلقة بهذا المجال في مرحلة تالية لمرحلة الترميز النحوي 
للكلمات» وإلا فشلت تلك المشاريع وكانت نتائجها في التحليل غير دقيقة. 

وفي أثناء عمل ترميز للذخيرة اللغوية على مستوى أبنية الجمل يمكن 
عمل تحليل نحوي كلي أو جزئي لجمل الذخيرة. ومن خلال تحليل الذخائر 
اللغوية على مستوى أبنية الجمل يمكن التعمق في الاستفادة بالاستخدامات 
التالية للذخائر اللغوية: 


(أ) ابتكار برمجيات لتحليل الذخائر على مستوى أبنية الجمل 

وتطويرها 

إن الاستخدام الرئيس لعمليات ترميز الذخائر اللغوية على مستوى أبنية 
. الجمل هو التدريب على تصميم برمجيات للترميز الآلي لهذا المستوى 
٠‏ وتدريبها على الترميز الصحيج: هذا بالإضافة إلى أن هذه البرمجيات من 
العناصر المحورية التي لا غنى عنها في التطبيقات المتعلقة بالمعالجة الآلية 
للغات الطبيعية. إن استخدام الذخائر اللغوية المرمزة على هذا المستوى 
يساهم في تصميم برمجيات لتحليل الذخائر اللغوية على مستوى أبنية الجمل 
تعتمد على نظرية الاحتمالات» الأمر الذي يُدَعْم إمكانات تلك البرمجيات في 
الترميز على هذا المستوى. وقد صمّمَ كل من جيلينيك (361161)» وكوليئز 
(5هذ!آه©) من جامعة بنسلفانيا الأميركية برمجية تحليل لأبنية الجمل 
باستخدام نظرية الاحتمالات» وللتعرف عليها بالتفصيل يمكنك الاطلاع على 
المرجعين اتكا, و66). 

(ب) استخراج المعلومات المتعلقة بالمفردات 

الذخائر اللغوية المرمزة على مستوى أبنية الجمل تحتوي العديد من 
المعلومات الصرفية والنحوية؛ ومن ثم يكون لها فائدة في إنشاء المعاجم 


ص 
يس لبوا 


الإلكترونية. والمعاجم الإلكترونية عبارة عن مصددر ذات أبنية تقدم . 
المعلومات اللازمة عن التغيرات الصرفية التي تحدث للكلمات بالإضافة إلى 
المعلومات النحوية والدلالية؛ وذلك لتغذية أنظمة المعالجة الآلية للغات 


الطبيعية. إن استخدام هذا النوع من الذخائر اللغوية يمكنه أن يقدم للمعاجم 
الإلكترونية معلومات عن تصاحبات المفردات وأطر الاستخدام» بالإضافة إلى 
بعض المعلومات عن استخداماتها في أنواع النصوص المختلفة. 
"- الترميز على مستوى الدلالة 

يتم استخراج المفردات التفصيلية لعملية الترميز الدلالي من المستويات 
اللغوية المختلفة. ففي البداية» يتم عمل ترميز دلالي لكل كلمة من كلمسات 
النصء ويعتمد جوهر هذه العملية على تمييز التعدد الدلالي للكلمات وفقا 
للسياق والتوصل إلى المعنى الصحيح لكل كلمة. ولذلك إذا أردنا التحث 
بصورة أدقء فإن هذا المستوى من الترميز ينبغي أن يُطْلّق عليه اسم ترميز 
معاني الكلمات أو عملية إزالة اللبس الدلالي بين الكلمات؛ ويُطْلّق عليها 
اختصارًا 50لالا (9400ناوأط0153:0 58056 1/1/0:0) بالإضافة إلى ذلك» 
يمكن ترميز كل جملة من جمل النص من حيث معنى الجملة؛ فعلى سبيل 
المثال؛ يُمُكن استخدام شبكة العلاقات الدلالية التي تنشأ من الحالات النحوية 
للكلمة داخل التركيب من أجل التعبير عن المعنى المنطقي للجملة» أو الاكتفاء 
باستخدام العناصر الدلالية الثلاثة التي تتكون من عنصرين لغويين مع الحالة 
الدلالية التي تربط بينهما للتعبير عن معنى كل وحدة دلالية تتكون منها 
الجملة. والجدير بالذكر أن الباحثين في مركز الأبحاث التابع لشركة 
مايكروسوفت الأميركية قد استخدموا رسميًا العلاقات الدلالية الثلاث 
باعتبارها خلية لغوية وقاموا بتكوين شبكة دلالية هائلة الحجم أطلق عليها اسم 
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مايندنت (1)843507160"'! اعتمادًا على معجمين للغة الإنجليزه ية و نتائج التحليل 
النحوي والدلالي لإحدى الموسوعات باللغة الإنجليزية. وتَسنْتَخْتم شبكة 
مايندنت (8418017/64) حاليًا في إزالة اللبس الدلالي والنحويء بالإضافة إلى 
استرجاع المعلومات وما إلى ذلك من الأبحاث المتعلقة بحقل المعالجة الآلية 
للغات الطبيعية ومشروعات تطوير هذا العلم. 

0 وفي مجال تحليل الخطابء فإن أسلوب التعبير عن المفاهيم من الممكن 
أن ينعكس على النصوص أو الشكل الإدراكي الذي يتكون بين المتحدثين. 
ففي الحديث الذي يدور بين الطبيب والمريضص» سوف يستخدم الطبيب 
بالتأكيد كلمات من قبيل "منطقة البطن" وغيرها من التعبيرات الاصطلاحية 
للتعبير عن مستوى معين من التخصص في الحديث» وطبيب آخر قد يستخدم 
كلمة أكثر عامية مثل كلمة 'البطن" حتى يمكنه التواصل مع المريض حسب 
مستواه المعرفي. بالإضافة إلى ذلك ففي مجال البحث عن المعلومات: إذا 
أراد شخص مهتم بالموضة أن يتعرفء من خلال ما تنشره الصحف؛ على 
التغير الذي حدث في مجال الأزياء واتخذ من ارتداء السّروال مثالا ل ذلك 
ففي أثناء تعامله مع ذخيرة لغوية سيكون من الطبيعي ألا يكتفي بالبحث عن 
كلمة سروال فقطء بل ينبغي له إضافة كلمات أخرى تمثل أنواع السراويل 
مثل "السسّروال القصير"؛ و"السّروال اللصيق (الاستريتش)؛ و'السروال 
الجينز"» و'سروال سباق الخيل" وما إلى ذلك. وهذا ما نطلق عليه في علم 
الدلالة إشكالية الكلمات المتعددة التي لها دلالة واحدة. وبمعنى أخر وجود 
عدد من الكلمات تشير إلى مفهوم واحد في الوقت نفسه. بالإضافة إلى ذلك» 
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نجد أنه في مجال البحث عن المعلومات تكون هناك حاجة إلى حل إثحكالية 
الكلمات متعددة الدلالة. فإذا أردنا الآن أن نتعرف على مقدار التغير فسي 
مجال الموادء. يمكننا أن نبحث بالكلمة المفتاحية "8484" "مواد". إلا أن كلمة 
"1" "مواد" تلك قد د تحتمل معنى آخر هو فت © ' حلا 'وثائق”". وأهم مافي 
الأمر هو أن المستخدمين لا تكون لديهم رغبة إلا في الاستعلام عن 
المعلومات التي تهمهم فحسب. 
وتَعتَبّر الحاجة لحل مثل هذه المشكلات إحدى آليات الترميز الدلالي 
للنصوص؛ بمعنى أن وضع علامة تير إلى معنى كل كلمة داخل النص 
يُعتبر يمثابة تقرير لمعنى هذه الكلمة وفقًا للسياق التي وردت فيه. والمثال 
و المُمْتَخْدّم في للترميز الدلالي يشير إلى نطاق 
دلالي معين نيه الكلمة موضع الترميز وهذا النطاق الدلالىي يضم في 
ا 0 1 
وعند إجراء الترميز الدلالي» ينبغي البدء باختيار نظام التصنيف 
'الدلالي (أو المفهومي) الذي سيتم اتباعه في عملية الترميز. وفي هذا الإطارء 
ينبغي النظر إلى العناصر التالية بعين الاعتبار: 
)١(‏ أن يكون نظام التصنيف الدلالي المُتبْع متعارف عليه بين جمهور 
علماء اللغة أو علماء اللغة النفسيين. 
)١(‏ أن يُغطي هذا النظام الكلمات الحقيقية في إحدى اللغات وليس 
جزءا منها. 
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(؟) أن يُمْكن تعديل هذا النظام بمرونة» حتى يسهل تطويعه لخدمة 
مستخدمين آخرين ومجالات أخرى. 

(4) أن يكون حجم الوحدات الدلالية إلمستخدمة مناسبًا. 

(5) أن يتمتع نظام التصنيف الدلالي بالتدرج البنائي. 

)١(‏ أن يعتمد نظام التصنيف الدلالي على معيار قياسي موحّد. 
4- ترميز مستوى الخطاب: الترميز على مستوى العلاقة بين المتحدثين 

يختلف الترميز على مستوى الخطاب عن المستويات الأخرى من 
مستويات الترميز في صعوبة وضع تعريف محدد له. فعند ترميز معلومات . 
الخطاب لنص من النصوصء يمكن الاستعانة بالجمل كوحدات للترميز؛ء حيث 
يُنظر إلى الجمل على أنها أكبر وحدة للتركيب النحويء وعند ذلك الحد يتم 
ترميز الجملة» بالإضافة إلى تصنيف الجملة وفقا لوظيفتها في عملية 
الخطاب؛ هذا بالإضافة إلى إمكانية استخدام مفاهيم مثل 'محور الجملة". 
و'موقع الفاعل": و'موقع المفعول" لترميز بناء الجملة وفقا لهذا النوع من 
المعلومات؛ كما يمكن أيضنًا أن يعتمد هذا النوع من الترميز على التدرج 
البنائي للنص أو شرح العلاقة بين المتحدثين كمفردات للترميز. 

وما نرغب في التأكيد عليه هنا هو علاقات التدرج البنائي للنصء 
وهي إحدى منهجيات الترميز على مستوى الخطاب التي تم تنفيذها حتى الآن 
بشكل عملي على ذخيرة ذات نطاق محدود. وتجدر الإشارة في هذا السياق 


212 


إلى أن عدد أنظمة الترميز على مستوى الخطاب قليلة إلى حدّ كبير حتى 
الآن. إن عملية ترميز الخطاب باتباع علاقات التدرج البنائي للنص ليست 
وثيقة الصلة بأساليب الترميز الأخرى كالترميز الصرفي والنحوي والدلالي. 
فالترميز الدلالي يهتم بإيضاح معاني الكلمات؛ أما ترميز الخطاب فيهتم 
بإيضاح الأوجه المتعددة للكفاءة اللغوية» ويُقصد بذلك تلك الأمور المتعلقة 
بانتقال المعنى من جزء إلى آخر داخل النص. فإذا لم نتمكن من شرح المعنى 
على هذا المستوى؛ أصبح أمامنا عائق في فهم هذا الجزء من لغة البشر. 

وقد سبق أن نوقش موضوع الترميز على مستوى الخطاب بشكل 
مكثف في أثناء مؤتمر ”124.412896» حيث إن الحاجة إلى تفسير الضمائر وما 
تشير إليه؛ وإزالة اللبس المتعلق بهذا الأمر من موضوعات البحث الرئيسة 
التي يهتم بها كل من علماء اللغة التقليديين وعلماء اللغة الحاسوبيين على حدّ 
سواء. وعلى الأخص فإن علماء اللغة الحاسوبيين بدءوا في الاهتمام بالذخائر 
اللغوية التي تَسْتَخدم في التدريب على هذا النوع من الترميز؛ التي تُمنْتّخدم 
في اختبار البرمجيات. ففي العقود القليلة الماضية» أصبحت إشكاليات تحديد 
ما تشير إليه الضمائر إحدى القضايا الساخنة في مجالات الترجمة الألية 
واستخراج المعلومات من النصوص. على سبيل المثال» ما تشير إليه ضمائر 
الغائب 6»ءط58»:8»»4 في أحد النصوص التي تتهيأ للمعالجة الآلية. وحتى 
يمكن التغلب على تلك المشكلة كان هناك وجهتان للنظر: الأولى ترى أنه لا 
غنى عن تغذية الآلية بالمعلومات اللغوية ومعلومات العالم الحقيقي حتى 
تتمكن الآلة من تحديد ما تشير إليه تلك الضمائرء أما وجهة النظر الثانية 
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فترى أن الاعتماد على أسلوب الخبرة من الممكن أن يُوَصّل إلى تلك النتيجة» 
وهذه المنهجية لا تستخدم معلومات العالم الحقيقي» بل تكتفي فقط باس تخدام 
المسافة بين الضمير والكلمات السابقة له: بالإضافة إلى المعلومات 
الإحصائية عن الكلمات أو العلامات داخل النص في التوصل إلى ما شير 
إليه الضمائر. إن الاستعانة بالمنهجية الإحصائية وذخيرة مُرمّزة مناسبة من 
الممكن أن يساعد في تجريب وسيلة آلية تعتمد فقط على النصوص في تمييز 
علامات الترميز الخطابي داخل النص. 

قامت جامعة لانكاستر ببناء ذخيرة شجرية لإحالات الضمائر بتمويل 
من شركة أي بي إم. وكانت عبارة عن ذخيرة شجرية تحمل ترميزرًا على 
مستوى أبنية الجمل» وعلى هذا الأساس تمت إضافة رموز خطاب تشير إلى 
علاقات التدرج البنائي داخل النص. وأثبتت تجارب الترميز أن الترميز 1 
مستوى الخطاب يمكن تنفيذه بطريقة مُوَحّدة ويتم الحصول على نتائج 
وفيما يلي نقدم بعض أمثلة حقيقية توضح نتيجة الترميز 0 
الخطاب الذي قامت به هذه الجامعة. 

:١ مثال‎ 


لإممقط ع6 زعط) 16ل 1كأاقط) 50د5 (6 عأصنامء لعألسقت عط 1 
مأه! 6 -111 1ك طانم 


مثال 2: 


"11> 5) فصنت لفط عط 17> لنهد (7 «اعمسلطر وككاءء5؟ ولط (7 ١‏ 
طعمء 1511-7,8:2 >0) مععاممه 520 زع 18:15-7,8> اسه (8 511 علط 7 
.0111 
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حيث يتم وضع الكلمات التي سبق ذكرها بين قوسين ويسبق هذه 
الكلمات رقم مُفهْرسء ولا يوجد لهذا الرقم إلا مرجعية واحدة داخل النص؛ 
أما الضمير الذي تنوب عنه هذه الكلمات فتوضع قبله علامة الترميز "1+78- 
الرقم المفهرس" أي أنه يُظَّهر الضمير المقابل لتلك الكلمات داخل النص. 
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الضاب المرابج 
كلم الذخائر اللغوية 
والدراسات اللغوية 


تم الاتفاق على أن علم الذخائر اللغوية هو ذلك العلم الذي يعتمد على 
أسلوب جمع النصوص اللغوية الواقعية لدراسة مشكلات علم اللغة. فمن 
حيث المنهجية؛ نجد أن هذا الأسلوب ينتمي إلى المنهج التجريبي في البحث 
العلمي» الذي يختلف عن المنهج العقلي الذي اتبعه تشومسكي. ومن هناء فقد 
اهتم الجميع اهتمامًا كبيرًا بتلك الدراسات اللغوية القائمة على ذخائر لغوية. 
وفي حقيقية الأمرء تميزت الدراسات اللغوية الصينية على مدى التاريخ دائمًا 
بالانطلاق من الوقائع اللغوية الحقيقية. إلا أن قصور متابعة الباحثين 
الصينيين للبنية المعرفية على مستوى العالم قد تسبب في تأخر الأبحاث 
الصينية القائمة على ذخائر لغوية مُمَيِكنة في عمل دراسات لغوية لبعض 
الوقت عن الغرب. 
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الفصل الأول 
منهجية الذخائر اللغوية في الدراسات اللغوية 


يتناول هذا الباب بالتعريف أهم تطبيقات منهجية الذخائر اللغوية في 
الدراسات اللغوية. إن أحد أهم استخدامات منهجية الذخائر اللغوية في 
الدراسات اللغوية استخراج البيانات اللغوية التجريبية الأكثر شيوعًا وتقديمها 
. للعاملين في مجال البحث اللغوي. ويبدأ هذا الباب بتعريف القارئ بالتطبيقات 
المختلفة لمنهجية الذخائر اللغوية في حقل الدراسات اللغوية: ويُكْتَتَم الباب. 
بتقديم بعض الأمثلة الحقيقية التي حققت نتائج على أرض الواقع. 
أولاً: الذخائر اللغوية وتطبيقاتها في الدراسات المتعلقة بعلم المفردات 
إن تاريخ اعتماد مؤلفي المعاجم على البيانات اللغوية الواقعية 
واستخدامهم لها في مؤلفاتهم المُعجمية يسبق ظهور علم الذخائر اللغوية. على 
سبيل المثال سبق أن استخدم العالم صمويل جونسون (2«هوصطول اعسسوة) 
الجمل إلواردة في الأعمال الأدبية في تأليف معجمه. وفي القرن التاسع 
عشرء استخدم معجسم أكسفو رد للغة الإنجليزية ( طدتاعهظا 0:10 
تصودهمء21) بطاقات الاستشهاد (ومناة هه6ه؛ك) لدراسة الاستخدامات 
المختلفة للكلمات وشرحها. وما زالت طريقة جمع الاستشهادات اللغوية من 
اللغة الواقعية مستمرة حتى الآن؛ إلا أن ظهور الذخائر اللغوية وما صاحبها من . 
منهجيات قد غير من أسلوب استقراء مؤلفي المعاجم واللغويين للحقائق اللغوية. 
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فالذخائر اللغوية في الوقت الراهن تعني أن مؤلفي المعاجم بإمكانهم 
الجلوس أمام إحدى شاشات الحواسيب الإلكترونية» وفي ما لا يزيد عن عدة 
ثوان يمكنهم استخراج الأمثلة الكاملة التي تَمَتَل الاستخدام الحقيقي لكلمة أو 
تعبيرة لغوية في نصوص يتعدى حجمها مليون كلمة. وهذا لا يعني فقط أن 
إنتاج المعاجم وتطويرها يتم الآن بشكل أسرع مما سبقء بل يعني أيضنًا أن 
تعريف المواد اللغوية يتم بشكل أدق وأكثر شمولية؛ وذلك لأن المواد اللغوية 
يتم استقراؤها من خلال ذخيرة لغوية حقيقية» وهذه الذخيرة تمثل تجمع هائل 
للعينات اللغوية يفوق كثيرًا ما كان عليه الوضع فيما مضى. 

إن استخراج الأمثلة من الذخيرة اللغوية من شأنه أن يمثل تَجِمُّعَا لغويًا 
مهما يمكن استخدامه في تحليل أعمق لمعاني المفردات وتمييزها. على سبيل 
المثال: عمل ترتيب أبجدي للكلمات المصاحبة لكلمة ما من جهة اليمين؛ ومن 
نَم يمكن عمل استقراء للأمثلة الحقيقية عن جميع التصاحبات اللغوية التي 
تأتي مع هذه الكلمة في سياق لغوي معين. وبالإضافة إلى ذلك فإن الذخائر 
اللغوية التي يستخدمها مؤلفو المعاجم تحتسوي معلومات تصنيفية حول 
مجموعة هائلة من النصوص اللغوية» مثل اسم مؤلف النصء وجنسه. 
وتاريخ النشرء والشكل اللغوي له؛ لدرجة أن تلك النصوص تكون مُرَمّزة: 
تحتوي ترميز! للكلمات من حيث النوع والمعنى. ؤهذه المعلومات من شأنها 
أن تتيح إجراء تصنيف للمعلومات التي يتم استخراجها من الذخيرة» وهذا 
يساعد المعجميين في تحديد الاستخدامات المختلفة لكلمة مافي بعض 
المجالات والأشكال اللغوية المختلفة بصورة نموذجية. 
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من خلال البرمجيات التي تقوم بحساب درجة التصاحب بين الكلمات 
(سبق الإشارة إليها في الفصل الثالث من الباب الثالث) يمكن استخراج 
مجموعات الكلمات المتصاحبة» وهذا يعني أنه بالإمكان استقراء التعبيرات 
والتصاحبات اللغوية ومعالجتها بشكل أكثر مصداقية مما سبق. فالوخدات 
اللغوية شائعة الاستخدام (01081»21»ءىة:طم) من الممكن أن تُكون مصطلحا 
تقنيّاء وفي أحيان أخرى قد تكون مثلاً شعبيّاء أما التصاحبات اللغوية فتعتبر 
خيطا مهما في التعرف على معنى الكلمة موضع البحث!©!. إن تمييز هذه 
التصاحبات داخل النصوص يعني إمكانية التعامل معها بشكل جيد كما يحدث 
مع الكلمات المفردة؛ حيث يتم معالجتها في المعاجم أو في بنوك المصطلحات 
الآلية» التي تَمسْتَخْدّم لإمداد المترجمين والاستعانة بها عند الحاجة. 

وفي الوقت ذاته؛ فإن صناعة المعاجم القائمة على ذخائر لغوية تساعد 
المعجميين في استخراج التعاريف اللغوية من الذخائر اللغوية؛ كأن يتم 
استخدام التصاحبات شائعة الاستخدام في ربط المعاني المتعلقة بالكلمات معّاء 
وهذا يساعد المعجميين في تقسيم فهارس الاستخدام للكلمات إلى تصنيفات 
تمثل الاستخدامات المختلفة للكلمة؛ ومن ثم يمكن تقديم معلومات عن معدلات 
تواتر المعاني المختلفة للكلمات من حيث معدلات التكرار. 


ثانيًا: الذخائر اللغوية والنحو 
تبر الدراسات النحوية (أو الدراسات المتعلقة بتركيب الجمل) مثلها 
كمثل الدراسات المتعلقة بعلم المفردات؛ إحدى الأمثلة الواقعية التي تشير إلى 


اعتماد .الدراسات اللغوية على الذخائر اللغوية. وتظهر أهمية الذخائر اللغوية 
في الدراسات المتعلقة بتركيب الجمل في االنقاط التالية: 

)١(‏ تُعتَبر الذخائر اللغوية بمثابة تمثيل للغة بأكملها. 

(؟) باعتبار أن البيانات اللغوية التي تُقَدمها الذخائر اللغوية بيانات 
تجريبية» فإن الحقائة ئق اللغوية التي تَقَدّمها يمكن ! ستقراؤها بالأساليب 
الإحصائية. 

قبل ثمانينيات القرن العشرين» كانت الدراسات اللغوية التجريبية 
تضطر إلى الاعتماد بصورة أساسية على أساليب التحليل الثابتة. وكان هذا 
النوع من الدراسات يُقَدم وصفا دقيقا للمنظومة النحوية للغة؛ ولكن النتائج 
كان من.الصعب أن ترصد معدلات التكرار الأعلى والأقل بشكل موضوعي. 
ومع ظهور الذخائر اللغوية المرمّزة على مستوى تركيب الجملة» والتطور 
المستمر لأدوات البحث داخل الذخائر اللغوية» أصبح من السهل إجراء 
التحليل الكمي (5أوزاقصه ع لاقام ددي) للظواهر النحوية بشكل أكبر مما 

سبق. إن التحليل الكمي للظواهر النحوية على أقل تقدير يقدم للباحثين أفضل 
5 الاستخدام النحوي لتلك الظواهرء بالإضافة إلى كل درجات التحول 
التي تحدث وما إلى ذلك من معلومات. وهذه المعلومات لا تفيد فقط في فهم 
القواعد النحوية للغة ماء بل تفيد أيضًا في دراسة أوجه الاختلاف بين اللغات 
بعضها البعضء وفي مجال تعليم اللغات. 


2054 


إن معظم الدراسات النحوية محدودة النطاق التي اعتمدت على الذخائر 
اللغوية كانت تشمل تحليلاً كميّا للبيانات؛ على سبيل المثال الدراسة التي قام 
بها العالم شميت (331١:44نجوطء5)!”؟!‏ عن الربط بين العبارات توصلت إلى 
العديد من المعلومات الكمية عن هذه الظاهرة في ذخيرة لوب 1.08 للغة 
الإنجليزية. وتفيد منهجية الذخائر اللغوية في إحصاء معدلات تكرار أنماط 
الجمل كافة. 

منذ خمسينيات القرن العشرينء انقسم علماء اللغة إلى قسمين كبيرين: 
القسم الأول تبنى في دراسة الظواهر اللغوية المنهج العقلي (سكنلههه26”)» 
والقسم الثاني استخدم الأسلوب الوصفي التجريبي في دراسة الحقائق اللغوية» 
وأولى اهتمامًا كبيرًا بالإحصاء الكمي للظواهر اللغوية في الذخائر اللغوية. إلا 
أن هذين الفريقين لا ينكر أحدهما الآخر كما يعتقد البعض. ففي الحقيقة: هناك 
بعض الباحثين ممن ينتمون إلى الفريق الأول استخدموا الذخائر اللغوية في 
قياس النظريات النحوية التي تنتمي إلى المنهج العقلي. ولم يلجئوا إلى استخدام 
الذخائر اللغوية في عمل التوصيف اللغوي البحت أو توليد النظريات النحوية. 

ففي جامعة نيجمن (هعؤذلة) الأميركية تم الجمع بين كل من المنهج 
العقلي والمنهج التجريبي في دراسة النحو لبناء نظرية نحوية صورية 
(:32نصة: 2 [قدم02؟) تخدم المنهج العقلي. وبعد ذلك تم اختبار تلك النظرية 
النحوية على الواقع اللغوي المُّخْوّن في الذخائر اللغوية الإلكترونية. وكان 
ذلك عن طريق البدء بالاطلاع على آراء جمهور النحاة في شرح تلك 
القواعد واستخدام آرائهم في تصميم نموذج للنحو الشكليء: وبعد ذلك تم تغذية 
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برمجية التحليل النحوي الحاسوبية بهذا النموذج؛ واستخدامها في تحليل 
الذخيرة اللغوية؛ للوقوف على مدى قدرة البرمجية مستعينة بهذا النموذج في 
تحليل البيانات اللغوية المؤجودة بالذخيرة. وعلى الأساس التجريبي لنموذج 
التحليل النحوي هذا تم تصويب هذا النموذج من خلال الأجزاء التي لم يتم 
تحليلها أو التي حُلَت بصورة خاطتة. 

وهناك تفكير آخر للاستفادة من الذخائر اللغوية في عمل التحليل 
النحوي؛ وذلك عن طريق الاستعانة بذخيرة مُرمّرّة على مستوى بنية الجمل» 
ومن خلال البيانات الإحصائية يتم تصنيف القواعد النحوية الواقعية الموجودة بها. 
ويمكن الاطلاع على مثال عن هذه المنهجية في الفصل الثاني من الباب الرابع. 
ثالتًا: الذخائر اللغوية وعلم الدلالة 

تعرفنا من خلال الفصول والأبواب السابقة أنه يمكن الاعتماد على 

ذخيرة لغوية في استقراء الحالات التي تظهر فيها كلمة ما للتعرف على 
معناها. وهذه المنهجية تستخدم بصورة أساسية في مجال علم المعجمية. 
ولكن بصورة عامة يمكننا القول: إن الذخائر اللغوية تلعب دورًا مهما في 
خدمة علم الدلالة؛ حيث يبرز دورها في إمداد علم الدلالة بشروح موضوعية 
تعتمد على أسلوب ديناميكي يتغير حسب طبيعة التغيرات اللغوية. ويتمثل 
أول دور مهم للذخائر اللغوية في علم الدلالة في إمكانية حصر المعاني 
الإضافية للكلمات بشكل موضوعي وفقا للواقع اللغوي. وقد سبق أن أشار 
العالم اللغوي منت (1)3418844:1591! إلى أن أقسام معاني الكلمات في علم 


و« 


الدلالة والمعاني الأكثر تواتر! في البناء اللغوي يتم تقريرها ووصفها وققا 
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لإدراك علماء اللغة» وهذه هي المنهجية العقلية في التعامل مع اللغة. ولكن 
الحقيقة أن تمييز المعنى ينبغي أن ينطلق من استقراء السياقات والأبنية 
النحوية للجمل وعلم الصرف وخصائص علم العروضء واستخدام الذخائر 
اللغوية من شأنه أن يقدم أمثلة موضوعية على تلك الفزوق الدلالية. 

أما الاستخدام الثاني المهم للذخائر اللغوية في علم الدلالة هو تقديم بنية 
أكثر تماسكا فيما يتعلق بالتصنيف الضبابي (:8)650© و22د25) وفكرة التحول 
التدريجي في المعنى. ففي علم اللغة النظري يُنظّر عادة إلى التصنيف 
باعتباره تقسيما ثابتا لا يمكن تغييره. وهذا يعني أنه عند التعامل مع كلمة 
معينة» إما النظر إليها على أنها تنتمي إلى نطاق تصنيفي معينء أو لا تنتمي 
ليه ولك الدرائنات التي أجرية ان فرع علم,الن لصفي قري أن 
فئات الإدراك لا تتصف بالثبات» بالإضافة إلى أن ادر ويا ينها حبادة 
إلى حد بعيد. ولذلك؛ فالمشكلة لا تكمن في إقرار ما إذا كانت كلمة تنت تنتمي إلى 
تصنيف معين أم لا؟ ولكن في احتمال ظهور هذه الكلمة ضمن تصنيف ما 
مقارنة مع احتمال ظهورها ضمن تصنيف آخر. ولا يمكن الحصول على 
هذه المعلومات الاحتمالية بأي حال من الأحوال إلا باستخدام الذخائر اللغوية 
التي تمثل الواقع اللغوي الحقيقي. 
رابعا: الذخائر اللغوية في مجال علم اللغة التداولي وتحليل الخطاب 

الدراسات التي تهتم بتحليل الذخائر اللغوية على أساس علم اللغة 
التداولي وتحليل الخطاب حتى الآن قليلة إلى حدّ بعيد. والسبب الرئيس في 
ذلك يرجع إلى أن مصدر التحليل على المستويين التداولي والخطابي يتمد 
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من العلاقة السياقية بين الجمل بعضها البعض. وعلم اللغة التداولي دائمًا ما 
يُطلّق عليه "علم المعنى السياقي"» إلا أن النتصوص المُمتّلنة في الذخائر 
اللغوية تفقد جزءً! كبيرًا من السياق الخاص بها. والسبب في ذلك يرجع إلى 
أن الذخائر اللغوية تتجه إلى جمع عينات لغوية صغيرة الحجم وليس 
نصوصاا كاملة. هذا بالإضافة إلى أن العينات النصية التي تجْمّع يتم حذف 
السياقات الاجتماعية والنصية الخاصة بها. 

وقد تركز جزء كبير من الدراسات المتعلقة بعلم اللغة التداولي 
والمجالات المتعلقة به خارج الصين على اللغة الشفهية. وبَعْتَبّر ذخيرة لندن- 
لوند (هه40هم.ظة-0سمرآ) الذخيرة الوحيدة التي تضم نصوصا حوارية. ولذلك 
فإن غالبية تلك الدراسات تم إنجازها على هذه الذخيرة. وكانت أهم 
الإسهامات التي قدمتها تلك الدراسات هي فهم الكيفية التي يتم بها الحوار 
اللغويء وعلى الأخص العلاقة بين الكلمات والتعبيرات اللغوية والجمل 
المكوّنّة للحوار. وقد قدمت العالمة ستنستورم (711)8]»250052:1987] من 
خلال الدراسة التي قامت بها على ذخيرة لغوية تفسيرا كميّا من وجهة نظر 
علم التصنيف حول عينات من الحوارات التي يبادر الشخص بإصدارها 
وأخرى يكون الشخض مشاركا من خلالها في حوار طبيعي. على سبيل 
المثال» في أثناء استقرائها للرسائل اللغوية التي تحمل كلمة '1911"» وجدت 
أن تعبيرة 4و1" ||3" دائمًا ما تأني بين الحدود الفاصلة بين مرحلتين من 
مراحل الحوار؛ وأن 9814 15215" غالبًا ما تُستّخدم في رسالة لغوية تحمل 
معنى التوكيدء أما "؛ط9أ؟ 11'5", و”19114؟ 171315" فتحملان معنى التجاوب 
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الحواري بالإضافة إلى التعبير عن معنى التواضع. وهذا الأسلوب الكمي في 
دراسة أساليب الحوار عمّق من 507 المعرفة البشرية تجاه عدد من 
التصرفات اللغوية. وذلك لأن تلك النتائج قدمت شروحًا تخصصية بما في 
ذلك الخيارات التي تكون أمام المتحدث من خلال وجهة النظر التداولية وأي 
من تلك الخيارات أكثر قياسية وأيها قليل التداول. 


خامسا: الذخائر اللغوية وتعليم اللغات 

عند تأليف المقررات الخاصة بتعليم اللغة دائمًا ما يكون هناك اتجاهان 
مختلفان» أحدهما يمثل المنهجية التجريبية وآخر يمثل المنهجية العقلية. فمن 
ناحية نجد أن العديد من المقررات الدراسية تَستَهْدم الجمل المُؤلفة؛ حيث 
تعتمد تلك الجمل على إدارك من يقوم بتأليفهاء وفي الوقت نفسه تمثل مواد 
لغوية سبق استخدامها. ومن ناحية أخرىء نجد أن الأمثلة التي تقدمها المعاجم 
والمؤلفات المساعدة في تعليم اللغة؛ التي تم بناؤها على ذخيرة كولينز 
كوبويلد (ه:.آ08111©-5ه0111©) تم جمعها على العكس من ذلك باس تخدام 
المنهج التجريبي. وقد اغتمدت الأمثلة التي تم تقديمها من خلال تلك التجربة 
على مصادر حية من الذخيرة اللغوية أو من مصادر لغوية أخرى. 

إن الأخائر اللغوية ُعْتَبَر مصادر مهمة للأمثلة في عملية تعليم اللغة؛ 
وذلك لأن الدارسين في المرحلة المبكرة من دراسة اللغة يكونون في حاجة 
إلى الجمل والمفردات الحقيقية؛ حيث إنهم سيتعرضون لهذه المفردات في 
أثناء اطلاعهم على النصوص التحريرية الحقيقية لتلك اللغة وسيحتاجون إليها 
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في أثناء عملية التواصل اللغوي. وهذه البيانات التجريبية لها الأهمية نفسها 
في تعليم اللغة للناطقين بها أو للدُجائب؛ حيث تتجاوز فائدتها نطاق المعنى 
البسيط الذي يدور حول الاستخدام الواقعي للغة. وهناك عدد غير قليل من 
العلماء اعتمدوا على بيانات الذخائر اللغوية في توجيه النقد لمقررات تعليم 
اللغة الموجودة حاليا. 
وكانت الطريقة التي اتبعوها في ذلك متشابهة إلى حدٌّ بعيد؛ حيث 
استخدموا ذخيرة قياسية للغة الإنجليزية مثل ذخيرة لوب 108 وذخيرة 
لندن- لوند (008هم0-1,0هدارة) في عمل تحليل لمحتوى المقررات الدراسية 
أو قوائم الكلمات المستخدمة فيها. ثم قارنوا مجموعتي النتائج التي توصلوا 
إليها. فتوصلت معظم الدراسات إلى أن هناك اختلافات جوهرية بين محتوى 
تلك المقررات الدراسية والاستخدام الحقيقي الذي يمارسه به أهل تلك اللغة. 
كما أن هناك بعض المقررات الدراسية أهملت جوانب متعددة لبعض أوجه 
الاستخدام اللغوي المهمة. لدرجة أنه في بعض الأحيان تم التضحية بأكثر 
. الأساليب شيوعًا في اللغة» في مقابل إظهار أساليب أخرى ليس لها مثل هذه 
الدرجة من الشيوح. وكانت النتيجة التي استخلصها كل من العالمين الشهيرين 
منت (341500) وكينيدي (0»ممء»1) وغيرهما أن المقررات التي لا تقوم 
على أساس من البيانات اللغوية التجريبية من المؤكد أنها ستسير في الطريق 
الخطأ. فمن الضروري اللجوء إلى استخدام الذخائر اللغوية في توجيه عملية 
تأليف المقررات الدراسية؛ ومن ثم إعطاء مزيد من الاهتمام للحقائق اللغوية 


الأكثر شيوعا من حيث الاستخدام. 
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وهناك منهجية خاصة في تعليم اللغات الأجنبية يُطلّق عليها اسم 'تعليم 
اللغة للأغراض الخاصة" وتشير تلك الطريقة إلى تعليم اللغة لأغراض 
تختص ببعض مجالات الاستخدام اللغويء» وهذا ما يتعارف عليه الجميع بأسم 
تعليم اللغات الأجنبية لأغراض تخصصية؛ مثل تعليم اللغة الإنجليزية لطلاب. 
الطب. إن بناء ذخائر لغوية متعددة المجالات من الممكن أن يساهم في تعليم 
اللغة لتلك الأغراض الخاصة كل في تخصصه. وقد سبق أن قامت جامعة 
العلوم والتكنولوجيا بهونج كونج ببناء ذخيرة للغة الإنجليزية مكوّنة من مليون 
كلمة. وكانت العينات المستخدمة منتقاة من المقررات الدراسية التي 
يستخدمها طلاب تخصص الحاسب الآلي. وبإمكان تلك ال ذخيرة أن نُقََم 
للطلاب العديد من المواد في المجالات التخصصية؛ بما في ذلك قوائم 
المفردات والبيانات الكمية عن طرق الاستخدام اللغوي. وتعمل هذه المواد 
على الاحتياجات الخاصة للطلاب في هذا المجال التخصصيء وهذا بالطبع 
أفضل من تلك التي يتم استخراجها من ذخائر لغوية في المجالات العامة. 
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الفصل الثاني 
إحصاء أنماط الجمل في اللغة الصينية 
والدراسات القائفة عليه 


تم ذلك في إطار مشروع رسالة دكتوراه تم تمويلها من صندوق اللجنة 
القومية للتعليم بإشراف الأستاذ الدكتور جاو شو خوا الأستاذ بجامعة اللغات 
والثقافة ببكين» وقد نوكشت الرسالة واعتّمدّت من قبّل مجموعة من الخبراء 
في بكين في العاشر من شهر إبريل عام 721996, 

-١‏ كانت الأهداف الرئيسة من دراسة إحصاء أنماط الجمل في اللغة 
الصينية ما يلي: 

(أ) إجراء تقطيع على مستوى الجمل لمواد لغوية مُكوّنة من نصوص 
المقررات الدراسية الصينية في المرحلتين الابتدائية والإعدادية 
بالإضافة إلى المقررات الدراسية لتعليم اللغة الصينية للأجانب 
بجامعة اللغات والثقافة» وقد وصلت النصوص التي تم تقطيعها إلى 
أربعة ملايين رمز صينيء ومن نتائج التقطيع تم عمل منظومة 
لتصنيفات الجمل في اللغة الصينية الحديثة. وبناءً على ذلك؛: تم 
إحصاء معدل تكرار كل نوع من الجمل داخل الذخيرة؛ ومن ثم 
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أمكن تقديم بيانات علمية يمكن الاعتماد عليها في الدراسات متعددة 
الجوانب الخاصة بتعليم اللغة الصينية للأُجانب» وتصميم المقررات» 
ووضع-معايير الاختبارات اللغوية» بالإضافة إلى الدراسات التقابلية 
بين اللغة الصينية وغيرها من اللغات. 

(ب) تقديم ذخيرة لغوية مؤهّة تحتوي البيانات اللغوية الضرورية 
لاستخدام علماء اللغة والعاملين في مجال تعليم اللغة الصينية. 

(ج) تقديم مصادر أساسية تستخدم في مجالات التمييز الآلي لكل من 
حدود التعبيرات اللغوية» وفصل عناصر الجملة آليّاء بالإضافة إلى 
تحليل التركيب النحوي للجمل الصينية آليِّا وغير ذلك من الدراسات 
المتخصصة في مجال المعالجة الآلية للمعلومات باللغة الصينية. 

؟ - وقد حقق هذا المشروع البحثي النتائج التالية: 

(أ) عمل تقطيع على مستوى الجمل لمحتؤيات ذخيرة من أربعة ملايين 
كلمةء وتخزين الناتج في صورة رقمية» بالإضافة إلى تحويلها إلى 
بطاقات ورقية تصل إلى مائتي ألف بطاقة للأمثلة من الجمل 
اللغوية مُفهرسة حسب نوع الجملة» وموضنّح عليها المعلومات 
التوثيقية الخاصة بها. 

(ب) عمل تصنيف مشفوع بالإحصاءات عن أنماط الجمل المكوتئة 
للمادة اللغوية التي تخص نصوص اللغة والأدب المستخدمة في 
المرحلة الابتدائية؛ التي تصل إلى مليونين وثمانمائة رمز وتقسيمها 
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إلى ثلاثة مستويات مبتدئ ومتوسط ومتقدم. وفي الوقت نفسه عمل 
تحليل لتركيب الجمل البسيطة التي تم استخراجها وتخزين النتائج 
في شكل رقميء وبذلك تم تكوين بنك عن أنماط الجملة البسيطة في 
اللغة الصينية الحديثة. وقد وصل عدد الجمل البسيطة التي تم 
تخزينها إلى ١575337‏ جملة. وبإمكان بنك أنماط الجمل المشار إليه 
أن يقنم معلومات عن الخصائص التركيبية لكل نوع من أنواع 
الجمل الصينية والأمثلة المقابلة لهذه الأنواعء بالإضافة إلى 
المعلومات التالية: | 

-١‏ معدلات استخدام الأنواع المختلفة للكلمات الصينية في الأماكن 
التي تحتلها عناصر الجملة الصينية الستة وهي المسند إليه. 
والمسندء والنعت والحالء ومُكمّل المعنى» بالإضافة إلى توجهات 
المعنى التي يشير إليها كل من النعت والحال والمُكمّل في الجملة. 

ا أنواع الكلمات التي تظهر بين حدود كل من المسند لقوق ينه 
في الجملة ومعدلات ظهورها. 

ترتيب العناصر في كل من الحال المُوستّع والنعت المومتع. 

5- الجزء الحاوي للرمز "805" في النعت المُوَسّع» الجزء الحاوي 
للرمز" لا" في الحال الموسّع. 

ه- الأجزاء التي تحتوي الأدوات المساعدة المبَيّنة لحالة الفعل 
"37 ,8د ,#8 ,1" وما إلى ذلك. 
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1- الأمثلة التي تحتوي فعل ومفعول به وما إلى ذلك من معلومات. ٠‏ 

(ج) عمل تحليل جزئي لتراكيب الجمل التي تحتويها نسصوص مادة 
المطالعات الصيئية بجامعة اللغاث والثقافة؛ التي يصل حجمها إلى 
٠٠٠‏ كلمة:ء بالإضافة إلى انتقاء الجمل السصعية من تلك 
النصوص وعمل تحليل لجزء منها على مسئويات ثلاثة:؛ ممستوى 
تركيب الجمل» ومستوى الدلالة» ومستوى التداولية. وعمل إحصاء 
عن معدلات: استخدام بعض أنماط الجمل وبعض الأفعال ذات 
الطبيعة الخاصة. 

(د) عمل د تصنيف للجمل التي ظهرت فسي نصوص | / للغة والأدب 
للمرحلة الابتدائية» نتج عن ذلك التصنيف (المسرد الإحصائي 
لمعدلات تكرار أنماط الجمل الصينية)» و(مسرد أنماط الجمل 
الشائعة في اللغة الصينية الحديثة). وهذين المسردين لهما قيمة 
مرجعية عالية في مجالات الدراسات التقابلية بين أنماط الجمل في 
اللغة الصينية واللغات الأخرىء ووضع معايير اختبارات تحديد 
مستوى إجادة اللغة الصينية» بالإضافة إلى تأليف مقررات اللغة 
الصينية للأجانب. على سبيل المثال» فيما مضى كانت مقررات 
تعليم اللغة الصينية للأجانب في أثناء شرح المُكمّل المبين للحالة 
الشعورية (أي المكمل الذي يحتوي الرمز “248 ويُطْلق عليه أيضًا 
المّكَسّ المبين للدرجة) وعادة ما كانت تلك المقررات تشرح هذا 
النوع من المكملات من خلال مثال توضيحي عن طريقة تركيب 
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هذا المكمل: 'مسند إليه+ فعل+ مفعول به+ تكرار للفعل+ 8# + 
المكمل" مثل "4155:5184" بمعنى "هو يكتب الرموز الصينية 
بسرعة" وفي الحقيقة أن هذا التركيب قليل التواتر في الاستخدام 
اللغوي الواقعي» ففي نصوص اللغة والأدب للمرحلة الابتدائية التي 
تصل إلى 78٠٠٠٠١‏ رمز لم يظهر هذا التركيب ولو مرة واحدة. 
ولذلك يرى فريق البحث أن الأمر يحتاج إلى إعادة نظر في مدى 
ضرورة شرح هذا النوع من الجمل في المستوى المبتدئ من 
مستويات تعليم اللغة الصينية لادُجانب. ْ 

*- وقد توصل فريق البحث من خلال هذه الدراسة إلى القواعد 

التالية في تعريف الجملة: 

(أ) ضرورة وجودها في إطار بنائي متكامل. 

(ب) تعبيرها عن معنى متكامل. 

؛- وقد قابل فريق البحث عددًا كبيرًا من الجمل المركبة في أثناء 
عملية تقطيع نصوص الذخيرة إلى جملء وقد عالجوا تلك الجممل 
كما يلي: 

(أ) إذا كانت الجمل الفرعية المُّكوّنة للجملة المركبة يمكن أن تتنستقل 
بذاتهاء يتم التعامل معها على أنها جملة بسيطة (مع إغفال أدوات 
الربط). 
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(ب) إذا كانت إحدى الجمل الفرعية يمكن أن تستقل في صورة جملة 
كاملةء يتم التعامل معها على أنها جملة بسيطة؛ والتعامل مع الجزء 
الباقي من الجملة على أنه جملة ناقصة. 

(ج) إذا كانت الجمل الفرعية المُكوّنة للجملة المركبة لا يمكن أن 
تستقل بذاتهاء يتم التعامل مع تلك الجملة على أنها جملة مركبة. 
بالإضافة إلى أن الجمل الناقصة والجمل المختصرة المُكوّنة للجمل 
المركبة لم يتم احتسابها في نتيجة إحصاء أنماط الجمل الصينية. 

في المادة اللغوية الممثلة لنصوص اللغة والأدب في المرحلة الابتدائية 

تم تقطيع عدد ١57341‏ جملة» وعدد ١77‏ جملة مختصرة:؛ وعدد 518 جملة 
ناقصة (مثل: 35[ةج###” بمعنى 'يعود إلى المنزل مساءً". 
و"3515 15 3751#" بمعنى "ما إن فتح فمه وبدأ في الأكل", و"76-م1183” 
بمعنى "ما إن رفع رأسه ليرئ')؛ وعدد ٠٠٠١‏ جملة مركبة (مشل 
"لذ 210:7 ,3-14" بمعنى "خرج من متاهة؛ ليدخل في متاهة 
أخرى". أو "14[ 35[ كارا زج ,[ثةكنراز--48 ". بمعنى " يثني وسطه 
تارة: ويُدَلْكُ ساقه تارة أخرى' أو "211801 ,111 -جج 39د" 
بمعنى "ما إن تصدر إليهم الأوامر» حتى يشغلوا لوحة الستحكم'» وما إلى 
ذلك). 

انحصرت الدراسة التي قام بها فريق البحث عن أتماط الجممل على 

دراسة أنماط تراكيب الجمل الصينية. وكانت القرائن التي يتم الاعتماد عليها 
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في التمييز بين أنماط الجمل المختلفة تتمثل في طبيعة الأجزاء المُكوئة للجملة 
وطريقة بناء الجملة» بما في ذلك ترتيب الكلمات داخل الجملة وعدد العناصر 
المكونة للجملة؛ بالإضافة إلى أنواع الكلمات المُمَلّة اتلك العناصرء وما إلى ذلك. 

ه- وقد تعمق فريق البحث في الدراسة وقَدّم دراستين تكميليتين عن 
خصائص تركيب الجمل في اللغة الصينية: 

(أ) على الرغم من أن تقسيم أنماط الجمل قد تم وفقا لمجمورعة من 
الأدلة عن الخصائص التركيبية للجمل» فإن فريق البحث لم يستبعد 
دراسة العلاقة الدلالية بين أجزاء الجملة عند الضرورة. على سبيل 
المثال في الجملة الإسنادية» على الرغم من أن تركيب جميع الجمل 
صغير"؛ فإن العلاقة الدلالية بين العناصر المُكونة لتلك الجملة غير 
موحدة؛ ومن الممكن تصنيف هذه الجملة إلى خمسة أنماط فرعية 
مختلفة. على سبيل المثال إذا كان المسند الصغير عبارة عن فعل 
أو تعبيرة فعلية مكوّنة من فعل ومفعولء» تكون العلاقة الدلانية بين 
العناصر الثلاثة لهذه الجملة كما يلي: 

558 . عندما يكون المسند إليه الكبير واقع عليه الفعل. 

8 عندما يكون المسند إليه الصغير واقع عليه الفعل. 

85 عندما يكون المسند إليه الصغير جزءًا من المسند إليه الكبير. 


55 عندما يكون المسند إليه الكبير كلمة معبرة عن المكان. 
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8 » عندما يكون المسند إليه الصغير مشير! إلى المسند إليه الكبير. 
(ب) حسب ما هو معروف لدى الجميع لا يُعتَبّر النعت جِزءًا من 
أجزاء الجملة؛ نظر! إلى عدم إمكانية تأثيره في البنية الأساسية 
للجملة. ولكن في أثناء التطبيقات الحقيقية اكتشف فريق البحث أن 
هناك بعض الجمل لا يستقيم لها المعنى إذا حُذف منها النعت مثل: 
71872" بمعنى. 'رأى يه جونغ تنينا" ولكن إذا أضيف النعت 
تختلف الجملة تمامًا فقصبح: '2:2--7 1[ 1478" بمعنى 
'رأى يه جونغ تنينا حقيقيًا"؛ مثشال ذلك أيضنا جُمَلَ مثشل 
"22-239 1[ 585" بمعنى: "باع كومة كبيرة من الجرائد"”: 
و87 ,15 - 82:7" بمعنى 'تعرض لخوف وهمي””؛ وما إلى ذلك. 
ولذلك فإن النعت يشبه الحال في كونه ذا أهمية في تمييز أنماط 
الجمل. ولذلك فإن تركيب هذا النمط من الجمل ينبغي أن يوضع 
بالصيغة التالية: "مسند إليه* فعل+ الأداة 37+ نعت+مفعول به" 
ومثال آخر يتمثل في الجمل التي تحتوي الرمز "8" المُعبّر عن 
معنى الملكية أو الوجود مثل "1773258121818 35151878" 
بمعنى 'تلك الفتاة لها عينان واسعتان جميلتان"؛ ويكون تركيب هذه 
الجملة كما يلي: 'مسند إليه + الرمز 8 + نعت (مكون من عدد 
وكلمة كمية وكلمة وصفية) + مفعول به" ويرجع ذلك إلى أنه في 
هذا النوع من الجمل لا يمكن الاستغناء عن النعت الذي يسبق 
الكلمة المحورية في المفعول به. فنحن لا يمكننا أن نكتفي بالقول: 
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' 5518:1141" بمعنى 'تلك الفتاة لها عينان". وفي الحقيقة أن 
معنى هذه الجملة لا يعبر عن الملكية بقدر ما يؤكد معنى الوصف 
في الجملة مثل "122115735 2511#0!|4154' بمعنى 'إن عيني 
تلك الفتاة واسعتان وجميلتان". ْ 
وقد جمع فريق البحث بين منهجية التحليل حسب عناصر الجملة:» 
ومنهجية التدرج في التحليل. ففي أثناء تقسيم عناصر الجملة استعانوا بنمط 
التركيب " نعت + مسند إليه + حال + فعل + مكمل + نعت + مفعول به 
. مع اعتبار أن هناك علاقة تدرج بين العناصر وبعضها البعضء وأنها لا تقع 
في مستوى واحد. وعلاقة التدرج هذه تظهر خلال عملية تحليل الجملة. 
؟- فالجملة يتم تقسيمها في البداية إلى جزأين كبيرين هما المسند 
إليه والمسند. يتكون جزء المسند إليه من 'نعت + مسند إليه", أما 
جزء المسند فيحتوي 'حال + فعل + مكمل + مفعول به". هذا 
بالإضافة إلى أن جزء المفعول به من الممكن أن يكون على النمط 
" نعت + مفعول به" كما يظهر من الشكل التالي: 


جزء المسند إليه: نعتث + مسند إليه 


مخ 
جزء المسند: حال + فعل + مكمل 4 جزء المفعول يه 


8 


+ مفعول يه 


301 


(أ) من الممكن أن تدخل التعبيرات اللغوية ضمن بنية الجمل كوحدة 
متكاملة؛ وتُكُوّن بذلك عنصرا من عناصر الجملة. إلا أن التركيب 
الداخلي لهذه التعبيرات اللغوية ينبغي تحليله خارج إطار تحليل 
الجملة؛ وذلك لأن البنية التركيبية لتلك التعبيرات اللغوية لا تقع في 
المستوى البنائي نفسه الذي يحكم عناصر الجملة الستة (المسند إليه: 
والمسند» والمفعول به؛ والنعتء والحال؛ والمُكمّل). 

(ب) جميع تراكيب التعبيرات اللغوية المكوّنة من نعت ومنعوت (يكون 
نمط التركيب داخل الجملة على هيئة ' نعت + مسند إليه"؛ أو "حال 
+ فعل + مكمل + مفعول به) يتحدد التدرج البنائي لها انطلاقا من 
الكلمة المحورية في التعبيرة اللغؤية؛ أي من اليمين إلى اليسار؛ أي 
أن التوسع في المعنى يحدث من الوحدة الصغرى في اتجاه الوحدة 
الكبرى. وجميع التعبيرات اللغوية 'التي تتكون من فعل ومكملء أو 
فعل ومفعول؛ أو فعل ومفعول ومكملء أو فعل ومكمل ومفعول؛ 
يتحدد التدرج البنائي لها انطلاقا من الكلمة المحورية؛ أي من 
اليسار إلى اليمين» ويحدث التوسع في المعنى بدءً! من الوحدة 
الصغرى وفي اتجاه الوحدة الكبرى. إن الالتزام بهذه المبادئ من 
شأنه أن يُقَتّ عرضًا شاملاً لمراحل تحليل الجملة الصينية. . 
وفيما يلي نشرح مراحل تحليل الجملة الصينية من خلال مثال على 
جملة ذات مسند فعلي: 
المثال "+ إقذ جر وام كثر نل رز عام زان جه رز د تمعز كك [5| 0 7 1837ل" 
بمعنى * اشترى صديق أخيه الأكبر أمس من المكتبة إصدارا حديثًا لمعجم جيد". 
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الخطوة الأولى: البدء بتحديد الكلمة المحورية في المسندء وهي الفعمل 
الخطوة الثانية: طبقًا للحدود الفاصلة بين جزأي المفعول به والمسندء 
يتم البحث عن عبارتي الصفة والموصوف الواقعتين في بداية الجملة 
ونهايتهاء ثم الانطلاق من الكلمة المحورية وتمييز التركيب من اليمين إلى 
اليسارء ويتم التوسع وفقا لتدرج البناء. على سبيل المثال: 
ة "3435لا" في '3/46] 388 :1ا' هي تعبيرة من صفة 
ل ا 0 


4م دن 
تعبيرة 611/57" في :18 [10/16801717 76ت" هي تعبيرة حالية كما 


خم 0265 | 


وإلى هذا المستوى يكون المسند إليه والمفعول به قد تم تحليلهما. 


303 


الخطوة الثالثة: يتم الانطلاق من الفعل باعتباره الكلمة المحورية في 
المسند» وتمييز التركيب من اليسار إلى اليمين» مثل: 


1خ حم د الام 
الخطوة الرابعة: الانطلاق من تعبيرة الفعل والمكمل والمفعول؛ وتمييز 
التركيب من اليمين إلى اليسار. مثل: 


قهز ون كا بلا عد - زود جر ع عدعم 


وبذلك يكون -الجزء الخاص بالمسند قد تم تحليله. 


الخطوة الخامسة: الجمع بين جزأي المسند إليه والمسند؛ أي 'تكوين 
الجملة كاملة؛ مثل: 


فق غ1 وضع ب50 - 3 36 تزاف 8387 852 32 


الآ 
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الفصل الثالت 
الأبحاث المتعلقة بعلم المعجمية 


علم المعجمية هو أحد أفراع علم المفردات التطبيقي» ويهتم بدراسة 
مبادئ تأليف المعاجم والتطبيقات المتعلقة بهذا المجال» بمعنى إجراء التأليف 
المعجمي من خلال جمع الوحدات المعجمية (نمء)ة [ه»16<1) ومقارنتها 
وشرحها وتصنيفها. إن الموضوعات الرئيسة التي يهتم بها علم المعجمية هي 
معانى الكلمات واستخداماتها. ويختلف علم تأليف المعاجم عن غيره من 
المجالات المختلفة لعلم اللغة في الغرب في أن هذا العلم اعتمد منذ نشأته 
وعبر مراحل تاريخه المختلفة على المنهج التجريبي القائى على الذخائر 
اللغوية. ففي عام 1755 اعتمد العالم جونسون (ههوصطه30) على ذخيرة لغوية 
في جمع الاستخدامات الحقيقية للكلمات؛ حيتث جعل من تلك الأمثقلة مادة 
لتأليف معجمه للغة الإنجليزية. وفي العقد الأخير من القرن النامن عشرء 
اعتمد معجم أكسفورد للغة الإنجليزية على جمع كمية هائلة من النصوص 
كأساس لتأليف المعجم؛ حيث قثمت تلك النصوص إلى أكثر من ثنانماقة 
متطوع قاموا بقراءتها واستخراج أمثلة عن الكلمات التي سبق تحديدها لهم 
وكتابة تلك الأمثلة في بطاقات: استشهاد ورقية. إلا أن هذه الطريقة في العمل 
تختلف كثيرً! عن المنهجية امتبّعة حاليا. أولاً: لأن تلك النصوص المبكرة 
لتكوين الذخائر اللغوية لم تكن مُمَثّلة للواقع اللغوي؛ بالإضافة إلى أن هؤلاء 
المتطوعين كانوا لا يهتمون إلا بالاستخدامات الخاصة للوحدات اللغوية التي 
يبحثون عنهاء ولم يهتموا بالاستخدامات الشائعة لتلك الكلمات. ثانيًا: لأن 
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تطور تقنيات الحاسب الآلى في عصرنا الحالي قد أتاح للدراسات المعجمية 
القائمة على ذخائر لغوية تميزا غير مسبوق يخرج عن نطاق توقعات 
السابقين في هذا المجال؛ على سبيل المثال من الممكن تصميم ذخيرة لغوية 
ذات تمثيل لغوي لمنظومة اللغة بأكملهاء كأن تحتوي مواد شفهية بكمية 
كافية» والقدرة على جمع كميات هائلة من النصوص اللغوية وتخزينها 
وإدارتهاء بالإضافة إلى إتاحة أدوات بحث وإحصاء سهلة الاستخدام يمكن 
الاعتماد عيلهاء وغير ذلك من التطبيقات. ومقارنة بالأسلوب اليدوي؛ يستطيع 
الحاسب الآلي البحث عن جميع الأمثلة التي تحتوي كلمة معينة داخل ذخيرة 
لغوية يبلغ حجمها عشرات الملايين من الكلمات بسهولة شديدة ودون أن 
يغفل مثالاً واحذاء بالإضافة إلى قدرته على توليد ملف مُفَيْرس لتلك الأمثلة. 
بالإضافة إلى ذلك يستطيع الحاسب الآلي أن يستخدم أساليب أكثر تعقيدًا من 
تلك التي يستخدمها الإنسان في تحليل أية علاقة من علاقات الارتباط بين 
الكلمات. على سبيل المثال عندما يصل عدد مرات ظهور كلمة معينة داخل 
النخيرة اللغوية إلى آلاف المراتء إذا تم الاعتماد على الإنسان في عَدْ هذه 
المرات؛ بالإضافة إلى عمل إحصاء للكلمات التي تظهر مع تلك الكلمة يمينا 
ويسارًا في حدود أربع كلمات وتصنيفهاء فإن هذا العمل سيكون في إطار 
المستحيل. أما الآن فيمكن إنجاز هذه المهمة في دقائق معدودة باستخدام أحد 
: أجهزة الحاسوب. 

ولذلكء فإن استخدام الحاسب الآلي بدعم من ذخيرة لغوية ذات نطاق 
واسعء من الممكن أن يساهم في إجراء بحوث استقصائية أكثر عمقا وأكثر 
تعقيذا حول مجموعة الإشكاليات التي يهتم ببحثها علم المعجمية؛ وهذا ما لم 
يكن متاحًا من خلال العمل اليدوي فيما مضى. 
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مبكر! في الستينيات من القرن العشرين» صممت دار نشر هيريتاج 
(مومات) الأميركية ذخيرة 73141311] لتأليف معجم لطلاب المرحلة 
الإعدادية. ولكي تضم هذه لتخي 4 الكلمات القن وديا الات ضور 
حقيقية؛ أي لكي تكون هذه الذخيرة مُمَثَلّة للواقع اللغوي الذي صُممّت من 
أجله» تم تصميم هذه الذخيرة بعناية فائقة فيما يتعلق بطريقة جمع عينات 
النصوص اللغوية. فقد قام مؤلفو الذخيرة بإجراء دراسة اس تطلاعية دقيقة 
وواسعة النطاق لتحديد المواد التي يتحتم على الطلاب الأميركيين قراءتها 
وتلك التي يُقبُون على قراءتها في إطار ٠١55‏ نوع من المطبوعات 
الرسمية» ثم تم اختيار عينات عشوائية من تلك المواد في حدود عشرة آلاف 
عينة» على ألا تقل العينة الواحدة عن 20٠‏ كلمة؛ ليصل بذلك حجم الذخيرة 
إلى خمسة ملايين كلمة. بالإضافة إلى ذلك؛ فإن تلك النتصوص تنتمي إلى 
1 موضوعًا؛ ومن ثَمّ أمكن التوصل إلى عمومية استخدام الذخيرة. وعلسى 
هذا الأساس» لم تكتف دار نشر هيرتاج بإصدار معجم طلاب المرحلة 
الإعدادية فقطء بل نشرت في 3 ١‏ نتيجة الدراسة الإحصائية عن 
معدلات استخدام الكلمات داخل ذخيرة 4141؛ التي قام بها العالم كارول 
وفريقه البحثي””!. 

أما معجم كولينز كوبويلد (1140011:اه00© وها) الكبير للغة 
الإنجليزية!75! الذي اشْمّهِرَ أنه أول معجم على مستوى العالم يتم تأليفه 
باستخدام الحاسب الآليء فقد تم الانتهاء من إصداره عام ١91417‏ بدعم مسن 
ذخيرة قاعدة البيانات اللغوية الدولية الصادرة بالتعاون بين دار نشر كولينز 
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وجامعة برمنجهام المسماة اختصارًا بذخير ة كوبويلد 1©081011.8)؛ التي 
وصل حجمها إلى عشرين مليون كلمة. وقد تم بناء الذخيرة بتمويل من دار 
نشر كولينزء أما إدارة تحرير المعجم وتصميم الذخيرة فقد تولى مسئوليته 
العالم سنكلير من جامعة برمنجهام البريطانية. وقد تم الاهتمام بشدة في أثناء 
تصميم ذخيرة كوبويلد أن تكون جميع المجالات مُمَثلّةَ داخل الذخيرة: وأن 
تكون الذخيرة مناسبة لمتطلبات العمل المعجمي» وقد ظهر ذلك مسن خلال 


النقاط التالية: 
)١(‏ تشغل اللغة التحريرية نسبة 6 من حجم الذخيرة؛: واللغة 
الشفهية نسبة 6؟90. 


)١(‏ تمثل المادة اللقوية الدخيرة اللغة الإنجليزية القياسية» ولا تشمل 
اللغة الدارجة. وتَمَثْل اللغة الإنجليزية البريطانية بتسبة 70٠0٠١‏ 
واللغة الإنجليزية الأميركية بنسبة 9975 أما باقي المناطق الأخرى 
فتَمَثل بنسبة 900. 

(*) تَمَثْل المادة اللغوية استخدامات اللغة الإنجليزية المعاصرة فيما بعد 
عام »١195٠‏ ويّراعى أن تكون المادة اللغوية حديثة قدر الإمكان. 

(4) لا تشمل الذخيرة المواد الشعرية والمسرحية والمواد العلمية. 

(5) الاقتصار على جمع أعمال الكتاب فوق ال ١١‏ عاماء على ألا 
تقل نسبة الكاتبات عن .90١6‏ 


(عكعقطهاة0آ عع متاعطمآ أمدده ام ملسعاد1 جالع حتدنا موداعصتسسضاظ كعمتلاه) ) 1( 
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9( المادة التي يتم جمعها ليست عينات أو أجزاء من النتصوصء: بل 
نصوص كاملة أو مختارات من روايات كاملة؛ وذنلك لمصلحة 

إجراء تحليل لغوي عن العلاقات البنائية بين أجزاء النص. 
وقد كان إصدار هذا المعجم بمثابة نصّب تذكاري في عالم المعجمية: 
وكانت أهم ميزة له اعتماده على الواقع اللغوي في اختيار الكلمسات 
واستخداماتها وتقديم الشروح لها وغير ذلك من المحاور الأساسية في العمل 
المعجمي. وقد صرح العالم سنكلير رئيس تحرير المعجم أن هذا المعجم لم 
يعتمد على أساوب تأليف الأمثلة التي يتبعه المعجميون؛ وأن جميع الأمثلة 
التي استخدمها مُتَمَدَة من مادة لغوية حقيقية. وأن هذه الصفة تُوسس توحِهًا 

جديدًا سيؤثر تأثيرًا كبيرًا في عالم التأليف المعجمي على المدى البعيد. 
وفي عام 1997 ألف العلماء التايوانيون خوانغ جو رن» وتشن كه 
جيان» ولاي تشين شيونغ (معجم الكلمات الكمية للغة الصينية!') التايوانية في 
مجال الصحافة)!©”اء ويُعتبر هذا المعجم أول مُعجم للغة الصينية يعتمد في 
تأليفه على ذخيرة لغوية. وينقسم هذا المعجم إلى جزأين رئيسيين: الجزء 
(0) الكانات الكمدة في لان الصرارة بار ان 5016 فصل بين لجنو سوه خاي 
ذا كير الكلية ١‏ الكمية بتغير المعدود مشل "4 55 1ت" بمعنى 'ثلاثة طلاب"» 
و" ع2 0" ب ا الو 
ا ا و ل اراسي وا ب 5 
الصينية؛ واللغة العربية بها مثل هذا النوح من الكلمات ولكن على نطاق ضيق مع 
بعض للكلمات التي تستحضر كلمة كمية ثابتة كأن نقول: 'ثلاثة رءوس من الماشية", 


أو عندما تَعَبّر الكلمة الكمية عن وعاء يحتوي الكلمة موضع العد كأن نقول: "خمسسة 
أكواب من العصير”. (المترجم) 
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المتعلق بالكلمات الكمية والجزء المتعلق بتراكيب الكلمات الكمية. يتناول 
الجزء المتعلق بالكلمات الكمية بالشرح استخدامات الكلمات الكمية» بالإضافة 
إلى أنواع الأسماء التي يمكن أن تأتلف معها في تركيب. وينطلق الجزء الذي 
.يتناول تراكيب الأسماء مع الكلمات الكمية من الأسماء في اللغة الصينية: 
مُعَبْرًا عن جميع الكلمات الكمية التي يمكن أن تُمسْتَخدم مع تلك الأسماء. وفيما 
يلي نعرض مثالاً من هذا المعجه(): 


ع 
يي 


لتر ا لس ا 0 
ميلد ريل 12 1827 ٠‏ و , 


أ ,86 [ 7035 ] 1 1-1 


1 ور ١‏ 0 8 ل ا 0-0 
1 ,4 


.ياد .86 وكلا [ 7098 ] 


21151 1811 
اللةاتطرها, 51808 لاك كا 1 


اع و لوعت ,عو ع3 ,دع .جوز 5-6 2٠‏ 
ا اع رجي 2 34 
ا 221 1 2101 30 


ا ل [3 حا 2012 14 1/0 1 


عاك فك يمن 


)١(‏ سيتم عرض المثال باللغة الصينية كما جاء بالكتاب المصدرء يعقبه ترجمة لما ورد 
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1ل بج 3/11 2 لت '' للك ,286995271 ,اد ,ع4" 
21 ك ابامطت ات 


0 ا ا 0 
4 مج مه [ ا ] 

6.00 [3] 
ل لك 


إن 0 و , 


و1 [7835] 
0000222 
عل ا رلت] 0 


1" 1 ا ا اك اللي 2 
م عانقا 07 13 ةذ '' 11 1 19 5 جز 5ق - جز زان 


َك 
[1] بمعنى طريقة أو منهجية» مثل: 
ا ا م ا ري 0 تر ام 
11 . 
بمعنى: طريقة» أسلوب؛ طريقة عملء مهارة يدوية؛. طريقة 
استخدام؛ أسلوب كتابة» طريقة علاج» طريقة لعبء طريقة حسابء» 
وغير ذلك من الكلمات التي تعبر عن الطريقة أو الأسلوب. 


[في العموم] تَسْتَخْدّم الكلمات الكمية: 2# ,3171 ,“4: وتستخد 
الكلمات الكمية: 25 ,46 ,2 عند التعبير عن فئة أو نوع. 
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أو مثل: 
ملا 38 ....... 8 +982 +1 +822 

بمعنى: وجهة نظرء طريقة حديث» طريقة تفكير» حُجَّة» وغير 
ذلك من الكلمات التي تعبّر عن الرأي. 

[في العموم] شَسْتَخْدَم الكلمات الكمية: كير ,351 ,“4 وعند التعبير 
عن فئة أو نوع تَمسْتّخْدم الكلمات الكمية: 38 ,#6. 

[تعليق] يمكننا استخدام الكلمة الكمية ” "رمع الكلمات 
857 ,1 ,2829" مثل: 
ا ا ا ال 0 
بمعنى "وجهة النظر هذهء هذه الإفادة» هذه الطريقة في التفكير" 
يمكن أن نقول "1/26 يار 2". 
[؟] بمعنى قانون» مثل: 

ند لمعته ندعم اند ان لسع ارود 

,2 ,ج21 1ه ,822 , :8121 ....... 


بمعنى: القانون الدستوري» قانون العملء القانون الجنائي» القانون 
المدنيء القانون التجاريء قانون الانتخابات؛ قانون الأمن العام» قانون 
حقوق المؤلفء قانون رعاية الطفلء القانون الدوليء القانون العسكري؛ 
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قانون الضرائب... وغير ذلك من الكلمات التي تعبر عن أنواع 
القوانين. وهذه الكلمات غالبًا ما تستغني عن الكلمات الكمية. 

لاتعليق] كلمة "256" بمعنى "القانون الدستوري" لا يُستخدم 
معها كلمة كمية فلا يمكن أن نقول "872228-": أما نصوص القانون 
فيمكن ترتيبها من الأكبر فالأصغر فتَسْتَخْدَم معها الكلمات الكمية 
,]33 ,+4" بمعنى "مادة» بندء نقطة" فمثلا نقول: 


5-1 انا 1 تج ا ةب ا رج جا 
0-1 


بمعنى "النقطة الثانية من البند الأول من المادة المائة والثمانين من 
القانون المدنيء والمادة الخامسة من البند الخامس من المادة الأربعمائة 
وتسعة عشر من قانون الشركات" 
أو مثل: 
ممففقة لم6 8 1 

بمعنى قواعد اللغة» قواعد الأدب» القواعد النحويةء وغير ذلك من 
الكلمات التي تَعَبّر عن قواعد اللغة والأدب.: 
[في العموم] تَسستَخْدّم الكلمات الكمية: 4 ,+4 ,ة 
[؟] بمعنى مهارة أو موهبة أو قدرة؛ مثل: 
ا 03277 |2 ,ج86 
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بمعنى: الرماية» المبارزة بالسيفء مهارة تصويب السهام؛ مهارة 
استخدام السلاح الأبيضء مهارة العزف على الآلات الوترية»... 

[في العموم] تَسْتَخْدّم الكلمات الكمية: 4 ,4# ,2؛ وعند التعبير 
عن فئة أو نوع تَنْتَخْدّم الكلمات الكمية: 3 ,5ل2.. . 


بمعنى المذهب البوذيء أساليب السحرء وهذه الكلمات لا تستخدم 
أما كلمة "38#" بمعنى 'فن الخط' فْتَمستَخْدَم معها كلمات كمية. 
[في العموم] سَسْتَخْدَم الكلمات الكمية 26 ,3/6 ,8!. 
اتعليق] كلمة "ج488" بمعنى 'فن الخط" يمكن أن تمنتخدم معها 
الكلمة الكمية "35" بالإضافة إلى الكلمات الكمية سالفة الذكرء فنقول: 
"217 9 5 80-323" بمعنى 'إنه يكتب هذا النوع من الخط 
بشكل رائع". 
وكانت الخطوات التي تم اتباعها لتأليف هذا المعجم التايواني 
المتخصص في تراكيب الأسماء مع الكلمات الكمية كما يلي: 


)١(‏ جمع الأمثلة التي تمثل التصاحبات اللغوية بين الأسماء والكلمات 
الكمية من الذخيرة. 
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)١(‏ تصنيف البيانات التي تم الحصول عليها من الخطوة السابقة حسب 
معدلات التكرار. 
(*) اختصار البيانات السابقة وفقًا لتصنيفات علماء اللغة ومؤلفي 
المعاجم. 
ولذلك فإن من أهم مميزات هذا المعجم ما يلي: 
)١(‏ عدم الاعتماد على استخراج المعلومات من المعاجم السابقة. 
)١(‏ عدم الاعتمام فقط على الرؤية الذاتية للقائمين على تحرير المعجم 
في كتابة مواد المعجم. 
(") استخراج الأمثلة اللغوية موضع الاستشهاد بعددها الكبير بشكل 
مباشر من ذخيرة لغوية؛ ثم تحليلها وتصنيفها من خلال وجهة نظر 
. علماء اللغة. 
ولقة1 متك لم كخم فل وها قفا لطروقع المتععدق العو اليد 
الظاهرة: بل تَعَصَّقَ بصورة أكبر وقدّمَ شرحًا لأساليب استخدام كل مادة مسن 
مواد المعجم؛ على سبيل المثال؛ قَدّمَ المعجم تحت كل مادة عرضا يفيد بأكثر 
الكلمات والجمل شيوعًا وتمثيلا في الواقع اللغوي. وتكمن مناطق الاختلاف 
بين هذا المعجم والمعاجم السابقة في أن الكلمات والأمثلة المُنْتَخدمة ليست 
من تأليف محرري المعجمء بل تم اختيارها من ذخيرة لغوية كبيرة الحجم 
مشفوعة بمعدلات التكرارء ثم معالجتها من وجهة نظر هيئة تحرير المعجم 
وققا للقواعد التي أشرنا إليها. ولذلك فإن هذا المعجم لا يمكن أن يختلف عليه 
اثنان من حيث قوة التأثير وثراء المادة اللغوية. 


3215 


مُجْمَل القول: إن استخدام منهجية الذخائر اللغوية من شأنه أن يساهم 
في تطوير الدراسات في علم المعجمية على النحو التالي: 
)١(‏ كم عدد المعاني المختلفة للكلمة الواحدة؟ 


و 


حيث تَعْتَبّر هذه القضية من محاور اهتمام علم المعجمية؛ لأن علم 
الذخائر اللغوية من شأنه أن يُقدّم استقراءً للمعاني المتشابهة أو المختلفة 
للكلمات في السياقات المختلفة من خلال مادة لغوية حقيقية واسعة النطاق» 
ومن َم لا تكون هناك حاجة إلى الاعتماد على الأمثلة التي يؤلفها المعجميون 
حسب خبراتهم ووجهات نظرهم الخاصة. 1 

)١(‏ معدل تكرار ظهور كلمة معينة 

هذا النوع من الدراسات الاستطلاعية داخل الذخائر اللغوية هو ما 
يُطْلق عليه إحصاء معدل تكرار الكلمات؛: وهذا الإحصاء من ثأنه أن يُظّهِر 
لنا درجة شيوع الكلمة» الأمر الذي يجعلنا نميز بين الكلمات شائعة الاستخدام 
والكلمات النادرة. وهذه المعلومات لها قيمة مرجعية مهمة في تحديد ما إذا 
كانت الكلمة سترد في المعجم أم لاء أو في تأليف مقررات تعليم اللغات أو 
في صناعة المعاجم الإلكترونية التي يُعْتمَد عليها في تطوير أنظمة المعالجة 
الآلية للغات الطبيعية وغير ذلك من المجالات. 

(") ما الكلمات التي دائمًا ما تتصاحب مع كلمة ما؟ 

وهذا ما يُطلَقَ عليه دراسة التصاحبات اللغوية بين الكلمات. فالعالم 
اللغوي فيرث (ط81:4) كانت له مقولة شهيرة هي: "معاتى الكلمات لا تَفْهُم إلا 
من خلال التصاحبات"7. والمقصود بذلك هو أن المعاني المختلفة لكلمة ما 
لا يمكن تمييزها إلا من خلال التصاحبات التي تظهر مع تلك الكلمة: 
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والنطلنها حو تنحية النظر هذه لا يتم تمييز المعاني المختلفة لكلمة ما فقط 
(الإشكالية الأولى فيما سبق): بل يمكن ل الاستخدامات المختلفة لتلك 
الكلمة» وكل ذلك لا يتم التوصل إليه إلا من خلال أنماط الاستخدام والعلاقات 
التصاحبية بين الكلمات المختلفة. وتكشف لنا النظرة العامة على الإنتاج 
المعجمي للغة الإنجليزية المنشور بعد تسعينيات القرن العشرين أن جميع تلك 
المعاجم بلا استثناء قد تم على أساس استقرائي لذخيرة لغوية واسعة النطاق. 
ولا يقتصر الأمر عند هذا الحدء بل إن أحدث مُعْجَمَيْن صدرا عن دار نشر 
لونجمان (عهمآههةم) هما: (معجم لونجمان للغة الإنجليزية المعاصرة) 
(الطبعة الثانية)!”!» و(معجم لونجمان لتداعيات المعنى باللغة الإنجليزية) 
(2605 1ع ىم 15 هدتمودمرة) :]79[)١1319(‏ وهذان المعجمان 
يهتمان بصورة كبيرة بالدور الواضح الذي تلعبه التصاحبات اللغوية في 
شرح اللغة وتوليدها. وبالنسبة إلى المستخدمين الذين يتعلمون اللغة الإنجليزية 
باعتبارها لغة أجنبية فإن هذه الطريقة في تأليف المعاجم لها أهمية كبرى؛ 
ولذلك يلجأ محررو المعاجم إلى جمع كميات كبيرة من الأمثلة عن 
التصاحبات اللغوية» بالإضافة إلى خروجهم عن المألوف في صناعة المعاجم 
وجمعهم أمثلة عن التعبيرات اللغوية التي تمثل الاستخدامات الثابتة للكلمات» 

ويُطلقو ن عليها اسم الكلمات التعبيرية (70:0 256:ظام) وفي مجال الدراسات 
المتعلقة بعلم اللغة الحاسوبي والمعالجة الآلية للغات الطبيعية تُعْبَبّر عملية 
إزالة اللبس الدلالي بين الكلمات؛ التي يُطْلّق عليها اختصار! 178/058(18/59 
1 اع اط تصدة 11 0 من الموضوعات المّفق عليها أنها ذات 0 بة 
خاصة. بالإضافة إلى أن ١‏ استقراء التصاحبات اللغوية على نطاق واسع يُعتبر 
بمثابة مقدمة ابتكارية لحل هذه المشكلة. 
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(4) كيف يؤثر كل من المجال اللغوي والفترة التاريخية واللغة 
الدارجة وغير ذلك من العناصر غير اللغوية على نماذج استخدام 
الكلمات؟ 
هذا الاستقراء من شأنه أن يساهم في فروق استخدام الكلمسات بين 
المجالات المختلفة» أو عملية تطور الكلمات مع تغير الزمن. 

وفيما يلي نقوم بتقديم النتيجة التي توصل إليها العالم بيبر (2ع81 .2) 
في أثناء استقراء كلمة 2541 (مكتوبة بالحروف الكبيرة للتعبير عن أنها 
إجمال لجميع الحالات الصرفية التي تنشأ عن تلك الكلمة)!80” 
أولاً: استقراء معدل تكرار كلمة 751541 

للاطلاع على جدول معدلات التكرار لكلمة 041 في ذخيرة لوب؛ 
التي يبلغ حجمها عدد مليون كلمة انظر الجدول .١-4‏ 

جدول (1-4): جدول معدلات تكرار كلمة الش5 


وغيرها من الكلمات في ذخيرة لوب ' 
مآاذكالا 


| لط | 182 | 290 | 
| مسلط | 52 | 35749 | 
| طامط | 25 | 28177 | 
| “لط | 31 | 95068 
| الإجالى | 290 | 7778 | 
ا 
اححيد 
ا 


3ه 


كن 
الكحكاد 6 | 
كد | 185 |0468 ممم 
حمطا | 500 | 


1001 


318 


باعتبارها اسمًا سواء كانت في صيغة المفرد أم الجمع موزعة حسب 
المجالات في ذخيرة لوب. 1 


جدول (5-4): توزيع معدلات تكرار كلمة امرعغم 
على المجالات في ذخيرة لوب ش 


ونظرًا إلى كبر حجم المخرجات في كل تصنيف للمادة اللغوية» فإن 
الأرقام الأولية التي يتم حسابها على معدلات تكرار كلمة .2541 لا يمكن 
الاعتماد عليها بشكل مباشر في مقارنة ارتفاع معدل تكرار هذه الكلمة أو 
انخفاضها في المجالات المختلفة. ولذلك يتم تنسيب هذه المخرجات الرقمية 
إلى وحدة المائة ألف (107) مع اعتبار حجم المادة في كل مجال لحساب 
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المخرج النهائي. وعلى فرض أن الرقم الأولي لعدد مرات التكرار يساوي 
هء وحجم دخيرة التصنيف يساوي 088؛ والرقم النسبي المشير إلى قيمة 
التكرار يساوي 7؛ فيمكن حساب تلك القيمة من المعادلة التالية: على سبيل 
المثال لو تم الحساب على مجال التقارير الإخبارية بذخيرة لوب 1,08 


تكون المعادلة كما يلي: 
0 كد 
2 


وبما أن نطاق ذخيرة التصنيف 38 - 886٠٠١‏ كلمة» فإن الرقم النسبي 
لكلمة اذعاما هو: 


14 
8000 


9 - 2100000 تر 


ومن هذه الأرقام الإحصائية يمكننا أن نلاحظ أن عدد مرات ظهور كلمة 
241 في التصنيفات الثمانية لذخيرة لوب بها ما هو أكبر وما هو أقل من © 
في حدود أربعة تصنيفات؛ حيث كان عدد مرات تكرار كلمة .2841 في 
تصنيف المراسلات هو الأعلى حيث وصل إلى 75 مرة. وهذا يدل على أن 
عدد مرات تكرار كلمة 25:43 باعتبارها اسمًا في ذخيرة لوب التي يصل 
حجمها إلى مليون كلمة ما زال صغيرً! إلى حد كبير. وعلى الرغم من ذلك 
فإن الأرقام النسبية لعدد مرات تكرار هذا الاسم في التصنيفات المختلفة يُظهر 
أن هناك اختلافا في نسب التوزيعء على سبيل المثال نجد أن الرقم النسبي لعدد 
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مرات تكرار هذه الكلمة داخل التخصصات الثلاثة (المراسلات» والتقارير 
الإخبازية» والديانات) تقر يضعف القيمة في مجال الموضوعات الاجتماعية. 


والجدول 4-" يُبَيّن النتيجة الإحصائية لعدد مرات تكرار كلمة ب2143. 
في ذخيرة أكبر في مجالي الروايات والنصوص العلمية كل على حدة؛ وهذه 
الدخيرة عبارة عن عينات تم اختيارها من ذخيرة لونجمان- لانكاستر 
651 ! لاقتدع د10 في حدود أر بعة ملايين كلمة» وقد تم عمل الإحصاء 
على كل من حالتي الاسم والفعل لكلمة ب2141. 

جدول (4-"): يبين الجدول التوزيعي لعدد مرات تكرار كلمة .171741 
في مجالين مختلفين وفقا لنصوص ذخيرة لونجمان- لانكاستر 0791130-! 
101 ا 


0 عند رات تكرال ١‏ 
. كلمة لذلانة 1١‏ 


روايات 
نصوص علمية ا ان 
الإجمالي ووه دوع 2 


وهذا الجدول الإحصائي يوضح حقيقة في غاية الأهمية؛ وهي أنه على 
الرغم من أن إجمالي الأرقام النسبية تشير إلى أن صيغة الفعل من كلمة 
41 أكثر شيوعًا من صيغة الاسم ١١59(‏ في مقابل ,.)1١‏ نجد أن معدل 
استخدام الاسم أكثر شيوعًا من الفعل في تصنيف الرويات ٠١7(‏ في مقابل 
1)» أما في مجال النصوص العلمية فنجد أن الوضع عكس ذلك؛ حيث كان 
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استخدام صيغة الفعل من كلمة ,25:43 أكثر من ضبعف صيغة الاسم ١75(‏ 
في مقايل 5 /7). 

تشير نتيجة الاستقراء السابقة إلى أن الرقم الإحصائي الإجمالي 
للمشاهدات داخل الذخيرة بأكملها لا يمكن أن ينطبق دائمًا على المشاهدات 
المُسْتَخْرَجَة من التصنيفات الفرعية للذخيرة. وعلى العكس من ذلك فإن 
النتيجة التي يتم الحصول عليها من تصنيف فرعي لا تعبر عن باقي 
العجالات» بل لا يمكن تعميمها تمي حن للقانون العام الذئ يحكم لعة بدن 
اللغات. وبعبارة أخرىء فإن معدلات تكرار كلمة من الكلمات وأنماط 
استخدامها تُعَبّر بدرجة كبيرة فقط عن المجال اللغوي الذي تمت عليه عملية 
الإحصاء. ومن هنا يرى بيبر أن النتيجة الإجمالية التي يتم عملها على لغة 
ما (اللغة الإنجليزية على سبيل المثال) لا يمكن أن تكون نتيجة استرشادية؛ 
لأن هذه النتيجة عبارة عن معالجة لمجموع المشاهدات التي تم جمعها عن 
معدلات الاستخدام في عدد من المجالات. فمن ناحية يرجع هذا إلى أن 
النتيجة الإجمالية لا تكون سليمة؛ بسبب تحول الأداء اللغوي الذي يحدث للغة 
من مجال إلى مجال. ومن ناحية أخرى يمكننا القول: إن اللغة التي يُعَبّر 
عنها هذا النوع من النتائج الإجمالية غير موجودة على أرض الواقع. 


ثانيًا: الا استقراء على مستوى الدلالة 


في الغالب يتم عمل الاستقراء على مستوى الدلالة بدءًا من الجدول 
السياقي للكلمات ()<46هه© هذ 0::ه78 و1 المسمى اختصارًا ب 103816)؛ 


دنا 
ب 
كن 


حيث يقدم هذا الجدول السياقي جميع الحالات التي ظهرت فيها كلمة معينة» 
مع السياقات المصاحبة لها. ولكن بالنسبة إلى الكلمات متعددة الدلالة ينبغي 
الاعتماد على المجهود البشري في للتعرف على معنى الكلمة موضع البحث 
(يُطْلق عليها الكلمة الهدف) في كل سجل مُفَهْرَس أو كل مثال من الأمثلة؛ 
وهذه من أصعب المهام التي يمكن أن يقوم بها العنصر البشري. على سبيل. 
المثال نجد أن كلمة 21541 ظهرت ٠٠٠١‏ مرة داخل الذخيرة المكونة من 
مليون كلمة. أما بالنسبة إلى كلمة من الكلمات شائعة الاستخدام ققد تصل 
النتائج إلى ما يزيد عن عشرة آلاف سجل. وإذا أردنا أن نستخرج الأنماط 
الدلالية لتلك الكلمة من بين هذا الكم من النتائج؛ نحسب أن ذلك من الأعمال 
المستحيلة التي لا يستطيع أن يقوم بها عنصر بشري. لذلك فقد اختار العالم . 
بيبر طريقًا مختلفا للاستقراء الدلالي عن طريق التصاحب. إن ما يُطلّق عليه 
الكلمات المتصاحبة يُقَصّد به تلك الكلمات التي تَرِد دائمًا بمسصاحبة الكلمة 
الهدف داخل النصوص اللغوية. إن هذه الطريقة التي تعتمد على استقراء 
التوزيع الدلالي للكلمة تقوم على أساس الفرض التالي: كل مجموعة من 
الكلمات المتصاحبة يقتصر تصاحبها مع الكلمة الهدف في إطار معنى واحد 
لها فقط. ولذلك فمن خلال تطيل مجموعة الكلمات المتصاحبة التي يكشر 
ظهورها مع الكلمة» يمكننا أن نُمَيّز بشكل فعال معنى أو معاني تلك الكلمة. 
والجدول 5-4 يظهر لنا التصاحبات الأكثر ظهورًا مع كلمة ر[214. 
والذخيرة التي تم الاعتماد عليها مُستخرّجة من تصنيفين داخل ذخيرة 
لونجمان لانكاستر 128225467 2388ع1-0828: نصوص علمية في حدود 
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مليونين وسبعمائة ألف كلمة» وروايات في حدود ثلاثة ملايين كلمة. ويُقصد 
بالتصاحب الأيسر تلك الكلمات التي ترد قبل الكلمة الهدف مباشرة؛ مثل كلمة 
"6000" في التصاحب "4681 000ع'؛ أما التصاحب الأيمن فيُقصد بهتلك 
الكلمات التي ترد بعد الكلمة الهدف مباشرة» مثل كلمة " ؛0" في التصاحب 
"01 أوعل'"'. 

وقد أظهر الجدول 5-؛ أن أكثر الكلمات التي تتصاحب مع الامسم 
241 من جهة اليسار هي كلمة مع" (ظهرت بمعدل 4:5 مرة في كل 
مليون كلمة)» يلي ذلك كلمة "6000" (ظهرت بمعدل 7١‏ مرة). وفي الحقيقة 
أن هذا يمثل مجموع أمثلة يصل إلى 6 تصاحيًا من بين ١97‏ حالة ظهور 
. لهذه الكلمة في هذا التصنيف. وتلى ذلك من حالات التصاحب الأيسر كلمة 
'31886م'؛ وكلمة 824"؛ حيث وردت كل منهما مرتين فقط أي بمعدل 
٠,‏ كل مليون كلمة. 
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جدول ؛-؛ الكلمات دائمة التصاحب مع كلمة .721541 


(منبء ءار 01 106 39 
5 تصاحب :د10 | 18 0 7 

كلمة) يمن | هآ 8 3 

3 8 160 1 

40 122 0 

تصاحب | 000 84 28 

8 24 1 7 

روايات ع8 10 3 
01 54 28 

ال 0 22 7 
ب اغتمطك'| 15 ١‏ 5 

ايمن 1101 ئ 10 . 3 

| طننك | و 3 


وتشير تلك النتيجة الاستقرائية إلى أن كلمة .21043 في حالتها الاسمية 
يكثر ورودها مع التصاحبات '[062 8000/8634" في النصوص العلمية؛» وفي 
تلك الحالة يكون معنى "1462" هو 'كمية,. أو 'صفقة". وإذا نظرنا إلى 
التصاحبات اليمنى سنجد أن كلمة 07" هي أكثر الكلمات المتصاحبة مع 
الكلمة الهدف من جهة اليمين؛ حيث وردت بمعدل 4" مرة في كل مليون 
كلمة» وهي نسبة تفوق كثيرًا نسبة الكلمة التي وردت في الترتيب التالي لها 
(وردت كلمة »:زهدط مع الكلمة الهدف بمعدل سبع مرات). ومن هنا يمكننا أن 


2325 


نستخلص أن كلمة ,2143 عندما تستخدم اسمًا فإن نمط التصاحبات المقترن 
معها يكون على الصيغة 04 0681 غدعمج/000ع ه"» ويتضح من ذلك أيضًا أن 
المعنى الأكثر تداولاً لكلمة .25:41 هو "كمية", أو 'تبادل تجاري". وبالإضافة 
إلى ذلك فإن الجمع بين نتيجة الاستقراء السابقة وجدول الفهرسة من شأنه أن 
يُحَقق لنا مستوى أكثر واقعية للحكم على المعاني الأكثر شيوعًا لكلمة 
2541 في حالتها الاسمية. على سبيل المثال» يعبر جدول الفهرسة عن أن 
أكثر الاستخدامات شيوعًا للنمط "اهع0 غدوعءمع/لومع" هر ' لوع0 أمعمع 8000 2 
7011 01 و "2ه غلهء]]2 [دع0 زوعمع/000ع 9". ليس هذا فقطهء بل إن 
مجموعة الكلمات المتصاحبة مع كلمة 21543 من جهة اليمين تُعبّر عن أن 
معناها في تلك الحالة يكون 'كمية”. على سبيل المثال» الأمثلة التي وردت 
فيها كلمة التصاحب '20:<6ه” من جهة اليمين هي " عو« لداعل أوعمع ه 
ععموعء له" و"لع)تطتطصة عتمم لمعل جأوعمع ه". أما كلمتا "مذ" و"0" عندما 
تتصاحبان مع كلمة -ا04 من جهة اليمين فيعني ذلك أنها ما زالت تعني " 
كمية". مثل: "طاممسصم هذ تقعل أمعمع وك رو" تغط صل قعل أمعموة مع كلل 
مل صنثت و"لعساعءق عط 0) لوع0 أوععع و" و" 0) لمع أقعع 2 
06" وما إلى ذلك. والخلاصة أن غالبية معاني كلمة 9541 في حالتها 
الاسمية في النصوص العلمية تأتي بمعنى 'كمية". 

أما إذا قارنا بين النصوص العلمية ونصوص الروايات فسوف نجد أن 
هناك تشابهًا في حالات التصاحب لكلمة 012481 في صيغتها الاسمية» مع 
وجود بعض الاختلاقات الواضحة. فمن ناحية نجد أن الكلمتين الأكثر 
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تصاحبًا معها من جهة اليمين ما زالت هي "96631": و"9000. ففي الحقيقة 
أن معدل تكرار نمط التصاحب '04631+]8768/ 9000 في التصنيفين مثماثلا 
تمامًا؛ حيث سّجّل 58 مرة لكل مليون كلمة. ومن ناحية أخرى علينا أن ننتبه 
إلى أن هناك 15 حالة من حالات التصاحب داخل تصنيف الروايات لم 
تستخدم النمط "ا9000/8568+0681 بل ظهرت تصاحبات أخرى جهة 
اليسار مثل "56" التي ظهرت ثماني مرات كل مليون كلمة: وكلمة "وذ" 
التي ظهرت ثلاث مرات كل مليون كلمة» هذا بالإضافة إلى وجود سبع 
كلمات أخرى ظهرت مرة أو مرتين مع كلمة 21541 من اليسار. 

وهذا يشير إلى أن معنى 'كمية" لكلمة 21543 في حالتها الاسمية هو 
المعنى الأكثر شيوعًا في التصنيفين» على الرغم من ظهور العديد من 
التصاحبات الجديدة الأكثر شيوعًا؛ التي تَعبّر عن معاني (أو استخدامات) 
الكلمة لم تظهر أمثلة لها في النصوص العلمية. على سبيل المثال كلمة ,66" 
عندما تتصاحب مع كلمة :25443 يكون معناها "اتفاقية”» مثل: " عط 04 4:هم 
... كط آهل" و"06817 ءط) 586) 6”م15": أما كلمة 'عذ5" فعندما تتصاحب مع 
امنا يكون معناها "غير مهم" مثل: '!1مع06 ونط مم" و" علط عط) وثأقطى 
7لوعل". ش 

هذا بالإضافة إلى أن هناك العديد من التصاحبات التي لم يمكن 
حصرها في الجدول السابق؛ بسبب انخفاض معدل تكرارها تعرضت لمعنى 
مهم من معاني كلمة .2141 وهو معنى 'صفقة". مثل: 'لوع0 بوعممءرم” 
و'لنامعءع" أ068" و"لهعل طووء"؛ و "061 لصدية": وما إلى ذلك. 
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وتتشابه المشاهدات التي تم الحصول عليها لمصاحبات كلمة .2141 
من جهة اليمين بين النصوص العلمية ونصوص الروايات. إلا أن كلمات مثل 
")ناوطة"؛ و"ط)1م" لم ترد في النصوص العلمية. 

وعندما تقترن كلمة "أناه8": و0" مع كلمة 21:41 نجد أنها ما 
زالت تحمل معنى 'كمية”؛ مثل: 

ش , ''ع109 انامطة لمعل أوععع ع لعا مكلق 1" 
."قلط انوطع لمعل أمععع 5 0عطع تدا طامط 116" 
وبالإضافة إلى ذلك: نجد أن كلمة "4110" عندما تقترن من جهة اليمين 
مع 2541 يكون معناها "صفقة"؛ مثل: 
"ورماءع00 عطا طاتج لمعل د علهدم 1" 
"نامز طاتج لمعل د أنك 1*1" 


وفي نصوص الروايات؛ لوحظ أن هناك حالات من المعنى لم تظهر 
ولو مرة واحدة في النصوص العلمية؛ بمعنى أن هناك بعض التصاحبات 
اليمنى مثل كلمة "816" التي ظهرت أربع مراتء وكلمة ”602 التي ظهرت 
مرة واحدة؛ حيث كان معناها 'مادة خشبية”: وعلى الرغم من أن هاتين 
الكلمتين لم تظهرا بعدد مرات كبيرء فإنهما تعبران عن استخدام آخر لكلمة 
41 في النصوص الروائية. 

وقد أجرى العالم بيبر مقارنة على النتائج الاستقرائية التي توصل إليها 
مع عدد من المعاجم الشائعة فوجد أن بعض هذه المعاجم قد أفردت مدخلا 
واحذا (هه) لكلمة 21543؛ والبعض الآخر قد أَفْرّدَ لها أربعة مداخل على 
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أكثر تقدير. إن أكثر المعاجم أفردت ؛ مداخل لتلك الكلمة. وقد اختلفت 
المعاجم فيما بينها في عرض المعاني الشارحة لكلمة .51541؛ حيث تراوحت 
تلك المعاني ما بين معنيين أو ثلاثة» وبعضها وصل إلى ثلاثين معنى» وقد 
ترتب على ذلك صعوبة تمييز القارئ للمعاني المختلفة لكلمة ب91543. وفيما 
يلي نعرض تجميعًا لعدد سبعة معاني تكررت داخل خمسة معاجم إنجليزية 
عن كلمة ,2843 عندما تأتي على الحالة الاسمية: 

)١(‏ كمية كبيرة» قثر كبيرء كثير. 

)١(‏ اتفاقية. 

(') (في أوراق اللعب) يورّع أوراق اللعب على اللاعبين. 

(5) (يتلقى) معاملة. 

(5) توزيع. 

(1) تجارة؛ معاملة. 

وقد أوردت أغلب المعاجم شرحًا لتلك المعاني السبعة: إلا أن هناك 
يرد به معنى "اتفاقية". هذا بالإضافة إلى وجود فرق كبير بين تلك المعاجم فسي , 
ترتيب شرح المعنى. على سبيل المثال ظهر معنى 'كمية كبيرة؛ وقدر كبيرء 
وكثير" في المادة الفرعية الثانية في معجم وبستر (:788656546): أما في معجم 
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راندوم هاوس (عكداه]] 500ه2) فوردت في المادة الفرعية الحادية والعشرين. 
وقد كانت الملاحظات التي توصل إليها بيبر من خلال المقارنة ما يلي: 

)١(‏ على الرغم من أن معنى 'كثير" هو المعنى الأكثر شيوعًا داخل 
التصنيفين الذين تكونت منهما الذخيرة موضع البحث.؛ فإن هذا 
المعنى لم يتصدر قائمة المعاني في بعض المعاجم المنشورة» بل 
أتى في آخر الشرح؛ حيث احتل الموضع السادس عشر أو الحادي 
والعشرين. 

)١(‏ تم التوصل إلى المعنى الأكثر شيوعًا لكلمة 2141 من خلال 
تحليل التصاحبات اللغوية لهذه الكلمة؛ وذلك عندما نستخدم 
التصاحب '0681 5ذ8” بمعنى "غير مهم"”: وهذا المعنى لايوجد 
معجم حتى الآن تمكن من رصده والتعرض له في الشرح. 

() جميع المعاجم الخمسة التي تم استطلاعها أوردت معنى 'توزيع 
أوراق اللعب" باعتباره أحد معاني كلمة .215:43؛ إلا أن هذا المعنى 
لم يظهر في الذخيرة التي أجرى العلم بيبر بحثه عليها. فمن ناحية 
تشير نتيجة استقراء الذخيرة إلى أن هذا المعنى من المعاني النادرة 
لكلمة ب2141. ومن ناحية أخرى فإن المتحدثين الأصليين باللغة 
الإنجليزية (وعناهعمه 56أغوم) يعتبرون أن هذا المعنى من المعاني 
الخاصة لكلمة .25:43 ولذلك فإن تدوينهم لهذا المعنى في معاجمهم 
يعتبر عملا صحيحا. ومن هذا المنطلق يمكننا القول: إن ذلك ههو 
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أحد أوجه القصور في منهجية العمل من خلال الذخائر اللغوية. 
ويرجع ذلك إلى أن أسلوب العينات الذي يتبعه علم الذخائر اللغوية 
في جمع النصوص يتعرض لقدر من التحيز وتحجيم نطاق المادة 
اللغوية» وهذا الوجه من أوجه القصور من الصعب تجنبه. لذلك لا 
بْدَ من تدخل علماء اللغة في أثناء عمليات استقراء المفردات؛ حيث 
تسد معلوماتهم وحسهم اللغوي أوجه القصور في منهجية العمل من 
خلال ذخائر لغوية. 
ثالنًا: منهجية الذخائر اللغوية في دراسة التصاحب اللغوي 
يظهر التصاحب اللغوي باعتباره أهم 'الظواهر الواجب دراستها لخدمة 
مجالات تعليم اللغات للناطقين بغيرهاء والترجمة الألية» والتوليد الآلي للغات 
الطبيعية وغير ذلك من المجالات. فلماذا نقول: 'يرتدي ملابس” و'يضع 
قبعة", في حين أنه لا يمكننا أن نقول: 'يضع ملابس"؛ و“يرتدي قبعة" ولماذا 
في اللغة الصينية يمكننا استخدام الفعل “8" بمعنى يرى أو يشاهد في الأمثلة 
التالية "826 76" بمعنى يشاهد فيلماء و"83#85" بمعنى يشاهد مباراة كرة 
القدم» و"5/1038" بمعنى يقرأ رواية» و5112" بمعنى يزور صديقاء في 
حين أن هذا الفعل عندما ينقل إلى اللغة الإنجليزية سيترجم إلى '©0/5©6ع 
0 على التوالي» وكل هذه من المعلومات الواجب 
استيعابها جيدًا حتى يتمكن الدارس من استخدام لغة من اللغات. 
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َم المُعْجِمي مورتون بنسون (51. «مكصمء8) موف معجم عي بي آي 
للتصاحب اللغوي في اللغة الإنجليزية (( 04 '5تهصولكء21 وه )قصنسره0 881 
طكناعه8)) (0,1986 وستطكتاطه" كمتسدز مء8 عهنه81[.)3] تعريفا 
للتصاحب اللغوي كما يلي[82]: 

"التصاحب اللغوي هو نوع من تكرار الظهور الإلزامي لمجموعة من 
الكلمات معٌا ( لو أع ناعة2 0ج جمةعاأطعة سقصأ مملعوءه1افى م 
سمأعمستطصمء) ". 

وقد حدد بنسون من خلال تعريفه خاصيتين من خواص التصاحب 
اللغوي وهما أن ظهور التصاحب يكون إلزاميٌاء بالإضافة إلى تكرار 
الظهور. 

والمقصود بلزوم التصاحب هو التفريق بين التصاحب اللسصقي 
(هممستطصمءغ لدنوط) أو التصاحب الحر (08ستاصدم ع86). يعبر 
التصاحب اللصقي عن لزوم عملية التصاحب بين الكلمات المتصاحبة. 
وبعبارة أخرىء يتمتع هذا التصاحب بصفات خاصة ومحددة؛» وهي أن كل 
تصاحب يضم على أقل تقدير كلمة واحدة تخضع لقدر كبير من الإلزام في 
أثناء التصاحب مع الكلمات الأخرىء وعلى هذا الأساس لا تكون حرة في 
عملية التصاحب؛ مثل التصاحب 0221214© 20111067 بمعنى (ارتكب جريمة 
قتل)؛ حيث إن فعل 'قتل" أو '214:«دم»" لا يمكن أن يقترن إلامع عدد محدود 
من الأسماء مكونا تعبيرة فعل ومفعول» مشل الكلمات "عتمفمء" بمعنى ' 
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"جريمة”»؛ و"ع10غ1ناو”" بمعنى "انتحار"» و'010128-71028" بمعنى 'فعل مشين"”. 
وما إلى ذلك. ولذلك يتم اعتبار تعبيرة 7ع10ناق1 المتطدهه تعبيرة لصقية. 
والتعبيرات اللصقية (التصاحبات) تفرضها العادة اللغوية في الخدم ولا 
تكفي المعلومات النحوية والدلالية لإماطة اللثام عن السبب في حتمية الحديث 
بمثل هذه الطريقة؛ ولذلك تكون هذه التصاحبات إلزامية» 0 المجتهدم 
أن يتوقع حدوثّها. وعلى العكس من ذلك؛ فإن كل كلمة من الكلمات المكوانة 
للتعبيرات الحرة يمكنها أن ترتبط بحرية مع كلمات أخرى خارج نطاق تلك 
التعبيرة» مكونة بذلك تراكيبًا أخرى على نمط التركيب النحوي الحالي نفسه. 
على سبيل المثال تعبيرة فعل ومفعول على النمط نفسه مثل" 5تمع020> 
نا" بمعنى "يدين جريمة قتل" تنتمي إلى التعبيرات الحرة وذلك لأن 
فعل 2:8م06ه0» يمكن أن يقترن مع العديد من الأسماء مثل 
"لهات ناو3 :01م 01 عكناطقر 22805250154102 نالطه" وما إلى ذلك باعتبارها : 
مفعولاء أما الاسم 2067م فمن الممكن أن يقترن مع أكثر من مائة فعل 
مختلف باعتباره مفعو ل مثل: "209021 ,تتتقاء22 ,امءعء 3 «مططه"؛ وما إلى 
ذلك. لذلك فإن هذه التعبيرات لا تتمتع بخصوصية لغوية» وما على دارسي 
اللغة الإنجليزية باعتبارها لغة أجنبية ثانية إلا أن يتعرفوا على معنى تلك 
القلنات :وتخضبائضها التكوية وما ديترقب خلن ذلك مو قزاعة تحوية: حي 
يمكنهم أن يكونوا تلك التعبيرات اللغوية بحرية تمكنهم من التواصل اللفوي 
السليم. وانطلاقًا من هذا المعنىء فإن التعبيرات الحرة ليست إلزامية ويمكن 
توقع حدوثها. 
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وفي مجال دراسات التصاحب في اللغة الصينية فقد نشر في السصين 
عدد من معاجم التصاحب اللغوي. إن دراسة التصاحب اللغوي في اللغة 
الصينية لا يمكنه أن يتجنب أيضنًا قضية التمييز بين حدود التصاحب وغير 
التصاحب اللغوي. يرى قوه تشيان أن معجم (التصاحبات اللغوية بين الكلمات 
الحقيقية في اللغة الصينية الحديثة)!3* هو أفضل المعاجم التي تناولت قضية 
التصاحب اللغوي في اللغة الصينية الحديثة. وذلك على الرغم من أن هذا 
المعجم قد سجّل عدذا كبيرًا من التعبيرات اللغوية الحرة على اعتبار أنها 
تصاحبات لغوية. وقد عرض رئيس تحرير المعجم في مقدمته فكره في أثناء 
عملية التأليف والمتمثل في أن يقدم لكل كلمة حقيقية يرغب أي شخص في 
التعرف عليها ما يلي: 

)١(‏ هل يمكن أن تشغل محل المسند إليه في الجملة؟ وإذا كان مسن 
الممكن ذلكء فما الكلمات التي يمكن أن تشغل محل المسند معها؟ 

)١(‏ هل يمكن أن تشغل محل المسند في الجمل؟ إذا كان من الممكن 
ذلك؛ فما الكلمات التي يمكن أن تشغل محل المسند إليهء أو المفعولء أو 
' المكمل معها؟ وما إلى ذلك. وقد شبّه فريق تأليف المعجم الكلمة أنها مثل 
المغناطيسء وأن الكلمات التي تنجذب لتأثير المجال المغناطيسي لتلك الكلمة 
يمكنها أن تَكُون معها تصاحبًا لغويًا. وعلى هذا يمكننا أن نتصور كيف أن 
هذا المعجم سوف يجمع بالتأكيد عدذا لا بأس به من التعبييرات الحرة (لا 
تمثل تصاحبات لغوية) مثل تصاحبات المسند إليه + المسند مثل "©238682' 
بمعنى"المدير الكفؤ"» و"1-88-77” بمعنى "العامل الكفؤ"» وتصاحبات المسند . 


334 


+ المفعول به مثل: "74821041" بمعنى 'يمدح الشاب"” و "لاغ 7588" بمعنى 
'"يمدح الطالب": وما إلى ذلك. 

ومن هذا المنطلقء» فإن التوصل إلى طريقة إحصائية مناسبة للحكم 
على ما إذا كان التركيب يمثل تصاحبًا لغويًا أم غير ذلك يُعْتَبّر من القضايا 
المهمة التي تشغل العاملين في حقل الذخائر اللغوية. كان العالم ياكوف شويكا 
(وعاءسمط0. (/) أول من استخدم الأدوات الحاسوبية في عمل تحليل كمي 
للتصاحبات اللغوية في الغرب2*! حيث عرف هو وفزيقه البحثي التصاحب 
اللغوي على أنه سلسلة من الكلمات المتجاورة التي تتكرر معاء وقد نجح في 
استخراج عدة آلاف من التصاحبات اللغوية الشائعة في اللغة الإنجليزية آلا 
من ذخيرة تصل إلى إحدى عشر مليونا من الكلمات من جريدة نيويورك 
تايمز باستخدام الحاسب الآلي؛ مثل: رصنت عتطوط ,سمعصطمل سعكاءتطء 2160 
“نجه وغيرها. وقد كان من عيوب تلك الدراسة عدم التفكير في إمكانية 
أن تقوم إحدى الكلمات بالفصل بين الكلمتين المتصاحبتين؛ مثل: (هفواعءل... 
ععلقم) بالإضافة إلى الخاصية الإلزامية للتصاحب اللغوي. أما العالم كينيت 
والت تشرتش (كآ. طء«داط©) وغيره من العلماء فقد عَرفوا التصاحب اللغوي 
على أنه عبارة عن كلمتين بينهما علاقة متبادلة»؛ واستخدموا مفهوم 'كمية 
المعلومات المتبادلة" ( 1540538108 [هدذنادم) الخاص بنظرية المعلومات في 
.الحكم على القوة الاقترانية بين أي كلمتين في اللغةاة*!؛ حيث أجروا اختبارًا 
على ذخيرة من النصوص الإخبارية مكونة من أربعة وأربعين مليون كلمة 
أطلق عليها ذخيرة (م08© م098)). إن القيمة الإحصائية التي تقدمها معادلة 
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المعلومة المتبادلة يمكنها أن تقدم إلى حد بعيد تفسيرًا للخاصيتين اللتين قم 
طرحهما آنفا؛ وهما خاصية الإلزام وخاصية التكرارء هذا بالإضافة إلى أنها 
لا تتقيد بضرورة أن تكون الكلمتان متجاورتين. ومن عيوب تلك الطريقة 
عدم الاهتمام بأن يتضمن التصاحب دائمًا خصائص تركيبية نحوية» الأمر 
الذي تسبب في أن يستخرجوا العديد من أزواج الكلمات من الذخيرة؛ مثل: 
لهاتمدوصمط-مغء00 ,لاذط-مغء00 ,ء5نه-406)0 على الرغم من وجود علاقة 
دلالية بين تلك الكلمات؛ ولكن نظرًا إلى عدم وجود علاقة نحوية تحكم تلك 
الكلمات» فلا يمكن النظر إليها باعتبارها تصاحبات لغوية إذا نظرنا إليها 
بقدر أكبر من الدقة في الحكم. أما برمجية إكستراكت 80266 التي صممها 
العالم فرانك سمادجا (5. 5889[8) فَتَعْتيّر من أحدث البرمجيات التي تقوم 
بعمل تحليل كمي للتصاحبات اللغوية بالإضافة إلى أنها-الأكثر تكاملا"*!. ولم 
يكتف سمادجا بتقديم معادلة تفسر قوة الاقتران بين أزواج الكلمات فحسبء 
بل استعان بمعادلة لحساب موقع الكلمة ودرجة التشتت في توزيعها. وقد 
نجحت برمجية إكستراكت 260804 في استخراج أمثلة عن التصاحب اللغوي 
من ذخيرة تصل إلى عشرة ملايين كلمة عن أخبار بورصة الأوراق المالية؛ 
وقد وصلت نسبة الدقة في النتائج إلى ما يقرب من .96/٠‏ 

استخدم العالم سوين ماو سونغ وغيره من جامعة شين خوا الصينية 
ذخيرة الأخبار التي أنشأتها وكالة أنباء الصين الجديدة شين خوا في الفترة ما 
بين عامي 1350١-1551؛‏ التي أَطْلقَ عليها اسم 0178105©-853؛ في عمل 
تجربة عن التحليل الكمي للتصاحبات اللغوية في اللغة الصينية» وكان الهدف 


3236 


ذلك تقديم مرجعية كمّيّة عن التصاحبات اللغوية لعلماء اللغة حتى يمكن 
تقديم كشاف نصف أآلي عن التصاحب اللغوي يصلح لأنماط التواصل اللغوي 
بين الإنسان والآلةا”*ا» وفي الصفحات التالية سوف نقدم نتيجة الاستقراء 


قوة التصاحب 
قام كينيت والت تشرتش وغيره من العلماء باستخدام معادلة كمية 
المعلومات المتبادلة 7# لقياس درجة العلاقة بين أي كلمتين اء و" . 
لسن : 
ص 10 > ( ناا ,)771 
م م 23 
المعادلة )١-4(‏ 


ا ال 5 احتمال ورود الكلمتين”؛ و" في نطاق 
السياق» أما(50, و (701 فتشير كل منهما إلى احتمال ورود 2017 
و(701 بمفردهما على التوالي داخل الذخيرة. 

على فرض أن 617, و 70197 زوج من الكلمات المتصاحبة المَنتّخبّة» 
تعكس القاعدة )١-4(‏ السابقة مدى إلزامية التتصاحب؛» وخاصية تكرار 
الطهون. ش 

عدار قيية: (2017 و 70110 اخليقة: له تتعيرء وكافك دزجية 

تقيّد الكلمتين 21 و" " ببعضهما كبيرة» وكانت فرصة ظهور 
هاتين الكلمتين مع كلمات أخرى قليلة» بالإضافة إلى أن قيمة 
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(201, أو (700 قليلة» فمن ثم تكون كمية المعلومات المتبادلة 
بينهما (077” كبيرة. وهذا يعبّر عن أن كلا من #اء و" 
بينهما علاقة اقتران إلزامية قوية. والعكس من ذلك صحيح. 

١١ عندما تزيد عدد مشاهدات 1ء» مع “لأء ويكون احتمال ورود‎ )١( 
مع ' والذي يُرْمَز له بالرمز 70077 كبيراء تزداد تبعا ل ذلك‎ 
كمية المعلومات المتبادلة بين 7 و:"؛ التي يُرمز لهاب‎ 
وهذا يُعَبّر عن زيادة قوة التصاحب بين كل من 17م‎ . 100001 
و ". والعكس من ذلك صحيح.‎ 

ويراعى في أثناء اكتشاف أمثلة التصاحب ضرورة أن يأتي التصاحب 


بين الكلمتين 17» و" في إطار جملة واحدة. ففي إطار الجملة الواحدة يمكن 
السماح بأن تنفصل الكلمتان 1 و" عن طريق مجموعة من الكلمات. على 
سبيل المثال» تعبيرات مثل "8:1[[13" بمعنى 'يرتدي ملابس"» و "2/214 8#” 
بمعنى 'يرتدي ملابس جديدة"» و'14:416--7 9" بمعنى 'يرتدي ملابسس 
حمراء اللون”؛ وما إلى ذلك من تعبيرات لغوية أو جمل؛ نجد أن كلمة "82" 
بمعنى '"يرتدي" تتصاحب مع كلمة "213" بمعنى 'ملابس" وهما كلمتان ينبغي 
ظهورهما معًا. وبالطبع فإنه كلما بعدت المسافة بين الكلمتين أمكننا القول 
بانحسار قوة العلاقة التصاحبية فيما بينهما. وقد حددت برمجية إكستراكت 
+0 السياق المحيط بالكلمة الإنجليزية عند حدود خمس كلمات قبل تلك 
الكلمة وبعدها. وبعبارة أخرىء يمكن القول: إن نافذة الرؤية للكلمة تم 
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تحديدها بقيمة +5 كلمات. وقد اتبع سوين ماو سونغ طول النافذة نفسه في 
استقراء التصاحب اللغوي في اللغة الصينية؛ حيث جعل الصيغة [1:1)رم 
تُعَبّر عن احتمال ظهور الكلمتين 1» و" معًا عندما يفصلهما عدد مسن 
الكلمات يقدر بالمسافة 4. على أن تكون 1,1,2,3,4,5-,2-,3-,4-,ك- > زر , 
فعندما تظهر الكلمة " على يسار الكلمة "1» فإن ‏ تأخذ قيمة سالبة» أما 
عندما تظهر الكلمة ”' على يمين الكلمة" فإن 7 ٍةٍٍم-2, 

فإذا عبرنا عن قوة التصاحب بالصيغة(7')” فيُمكننا حساب ذلك من 
خلال المعادلة التالية التي تقوم على أساس من القاعدة )١-4(‏ كما يلي: 


5+ 
(:11ون0) رط رم 


2-2 اتدل 8 > (رل, 
م 21 108 ح ( بلا ,ل)ى 


المعادلة (4-؟) 
فلو فرضنا أن مجموع الكلمات المُكوّتة للذخيرة هو 7»؛ وكانت 
الصيغة 729 تُعَبّر عن ظهور الكلمتين 1 و" وتفصلهما المسافة 4» 
وكانت كل من (09, 2 تعبّران عن عدد مشاهدات *, وث" 
بمفردهما داخل الذخيرة؛ واستخدمنا التقديرات الأعلى فيمكننا الحساب 
تضتورة جتفردة كما يلي 
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7ل / 0 ا ,)رم > ( :18,1190 )رم 
77 / ندا" ه (ملام 
87 ا (بس)” د رسام 


ويمكننا إدراج ماسبق مع القاعدة (1-4) فنحصل على الصيغة التالية: 


45 
)ناا )ررح قر 


2-5 


و10 ع ( نا ,ؤل)ى 
220 لوا انا 


المعادلة (4-؟) 

يصل حجم ذخيرة 711-0082105 إلى عشرة ملايين رمز» وبعد أن 
تمت عليها عملية تقسيم للكلمات وصل عدد كلماتها إلى 7.1210 // وقد 
أجرى سوين ماو سونغ دراسة استقرائية على التصاحبين اللغويين 
"38 ,8827" بمعنى 'قدرةء ضعيفة"؛ و2 ,88201" بمعنى 'قدرةء كبيرة.. 
وفيما يلي بيانات تلك الدراسة الإحصائية: 

المجموعة الأولى: "39 ,8827" 

3- (359 ,88) 2 .,1- زو 257 -- 


-و2-,4-,5-- ل ) 20 (39 ,8820 ) 1" ,5ك (99 ,8823) 45 , 
0 110 
7-(39) > 2441,7-(6821)- ” 


ووفقًا للمعادلة رقم (4-”) يتم التعويض في المعادلة كما يلي: 
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7.1<105)1+ 3+5 +70( 


8١ -‏ ,ودعي 50 21*17 9 
المجموعة الثانية:"22 ,(862*" 
,4- (2 ,8821) 4" ,6- 220 ,8821) 5لا 


وت 220 ,852) 52 ,4ك (22 ,زر5ق) 55 ,هد (2 ,ررة8) :#2“ 
4د (22 ,882) 5 2 ,6د 220 ,8629) 5 2 ,وك (ج2 ,ر462) ”7 
1- (852) ”7 ,5ت (22 ,[882) 15 |( ,6ح (22 ,ررع8) ” 
3- (22) / 
ووفقا للمعادلة رقم (4-") يتم التعويض في المعادلة كما يلي: 
5- 2 ,882) 


مره (8+4+2+9+6+4+6+5 +6+4 7.110 
3 :2 


جن هال وج انكية وسجافية شي الممنو قن كنا 
أن (38 8527) 5 أكبر بكثير من (22 ,8627) #رض به بصو ل 
أن المجموعة (39 0 تصاحب لغوي بصورة أكبر من 
( :852). وعلى الرغم من ان الكلمتين '(8852” و"8” وردتا معافي 
الذخيرة عدد 5 مراتء وأن الكلمتين "8527" و6" وردتا معًا عدد 4ه مرق 
فإنه نظرً! إلى أن كلمة "8827" وردت بمفردها داخل الذخيرة عدد ,1١17‏ أما 
كلمة "2" فقد وردت بمفردها في الذخيرة عدد 21551 ووفقًا للمعادلة رقم 
(4-) فإن قيمة درجة التصاحب بين كل من "39 ,882" قد تجاوزت على 
العكس من ذلك نظيرتها بين كل من"©2 ,8627". وهذه النتيجة نقطة تُصَْب 
لصالح مبدأ إلزامية التصاحب بين الكلمات. 


د10 
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وبالطريقة نفسها يمكن التوصل إلى النتائج التالية: 
05 (3984 .[882) 5 
3.- (2 ,[882) 5 
| 4- (ه ,8827) 5 
وحسب درجة قوة التصاحب يمكن ترتيب التصاحبات تنازليًا كما يلي: 
< 2 ,882) 5 <(9 ,8827) د <(38 ,[882) 5 
,88201) 5 
وهذا يوضح أن إمكانية وجود تصاحب فيما بين هذه المجموعات 
تتناقص تدريجيًا. ونظر! إلى تقارب درجة قوة التصاحب وارتفاعها فيما بين 
المجموعات 'قة ,8821" و"39 ,8527 و"2 ,8827" يمكن اعتبارها 
تصاحبات لغوية. وعلى الرغم من أن نتيجة التصاحب ل (22 ,8823) 5 
منخفضة: فيمكننا عمل استقراء إضافي لهذه المجموعة لتقرير ما إذا كانت 
تَمَتّل تصاحبًا لغويًا أم لاء أما نتيجة التصاحب 4١‏ ,8827) 5 فتقترب من 
الصفر؛ ولذلك فمن الواضح أنها لا تمثل تصاحبًا لغويًا. 
درجة انتشار التصاحب 
ونظر! إلى أن الكلمتين المتصاحبتين غالبًا ما يكون بينهما علاقة 
تركيبية مُحَدَدَة لذلك فإن فرصة ورود الكلمة ؟' مع الكلمة في موضع أو 
عدة مواضع بالنسبة إليها تكون كبيرة إلى حد بعيد؛ ومن ثم فإن قيمة 
الموضع ‏ في الصيغة (7201 تحدث بها قفزات كبيرة إلى حد بعيد. أما 
بالنسبة إلى الصيغ غير التصاحبية فنجد أن هذه القيمة لا تحدث بها فروق 


302 


لافتة للنظر. ويُظهر الشكل ١-4‏ درجة توزيع التصاحب بين المجموعتين “85 
322 ,23" و “2718 ,8821”: فالمجموعة الأولى درجة توزيع التصاحب فيها 
شديدة التباين» أما المجموعة الثانية فدرجة توزيع التصاحب فيها متجانسة. 
والبيانات اإحصائية للمجموعتين كما يلي: 


المجموعة الأولى: "8527 ,729" 
اله 8620 الل ذ[ع- وع329 ,(882) لوي 79 , [882) 7-4 
(1.1,2,3:4,3 -,ة5- د ر) 0 ل" 6 7 ومع 


المجموعة الثانية: "8252 ,!8] 2" 
88) ي” ,3-(181 2 :8823) ين" ,2-(181 22 )8827١‏ ” -(81 2 .8821) ثم 
0-(2280 :8523) ,1-(22181 :8623) و -(258 :6823)-(18 2 2١‏ 
(5,3,4,5- - زر ) 


موالع الكامة المتصاحبة 


شكل :)١-4(‏ توزيع التصاحب بين كلمتي المجموعتين 
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تساوت عدد مرات مشاهدات مجموعتي التصاحب "3296 ,8827" 
و18 ,8823" في الذخيرة اللغوية؛ حيث سجلت كل مجموعة ٠١‏ مرات 
ظهور. إلا أن الفرق بين توزيع التصاحب فيما بينهما كان كبيرا. فيالنسبة إلى 
درجة الانتشار 0:10 للتوزيع 72:17 يمكن استخدام المعادطة التالية 
لحسايها: 


7[ بها ,)م حر ناا 0 


- تك د ( موز ,س)هة 


معادلة رقم (4-؛4) : 


حيث تشير (00” إلى متوسط عدد مرات ظهور الكلمة ؟"' في 
المواضع المختلفة من الكلمة ”. 


معادلة رقم (4-ه) 


يُعبّر البسط في المعادلة رقم (4-4) عن درجة التفاوت والانسجام بين 
006 وبين 


وعلى هذا الأساس يتم حساب درجة انتشار توزيع التتصاحب بين 
المجموعتين كما يلي: 
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10-1/ (1+1+8) د(ه3ع1 , ررؤة) 7 


<(79 و (682) 0 
0 -8-1(2-7)0-1(2(7710) + 1-1(2) + 1-1(2)) 


10-1/ (1+40-+2+3+1+1+2) 2( جر 88 + 


2 )8823(: 29 80(- 
))2-1(2 + )3-1(2 + )8-1(2 + 3)1-1(2 + )2-7 


(4)0-1*:/1021.0+ 
عندما يكون مدى التغير في التوزيع كبيراء فمن الممكن أن يحدث تبعًا 
لذلك :طفرة في أحد مواضع التصاحبء على سبيل المثال في الشكل ١-4‏ 
اعندما يكون موضع التوزييع 17-2 للتصاحب 149 ,86:0" تكون 
4-(329 ,8821) 72: وهذه القيمة تمّثل تجمعًا لمشاهدات التصاحب عند 
هذا الموضع. عندما نحصل على قيمة ("7:2 في تجربة- 2 بمعلومية 
110 )را كما يلي: 


إلا لاس و1 038 1 


(:نها )عنم > (30,100) ره 


معادلة رقم (5-4) 


يكون شرط حدوث طفرة لظهور 'التصاحب في الموضع 7 أن تكون 
0 كيزن 4 بقدن :كاقن: 
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طبقا للشكل 1-4.؛ عندما يكون موضع التصاحب "3292 ,862" 

4-2 يتم التعويض في المعادلة كما يلي: 
تق 
6 +19 ,4820) 2 

وتظهر نتيجة المعادلة أن قيمة (39 ,2)8820” أعلى من القيمة 
المتوسطة (:39 ,8620)” بمقدار .١‏ 45 درجة انحراف معياريء مُمَََة 
بذلك طفرة في عملية التصاحب. 

وقد قام سوين ماو سونغ بتصميم طريقة أكثر دقة في حساب طفرات 
التصاحب بالنسبة إلى اللغة الصينية كما يلي: 

( :نلا ,90 )ع1/ه6م - ىل 

المدخلات: عدد مرات ظهور التصاحب بين أي زوج من التصاحبات 
7" في كل موضع من مواضع التصاحب كما يلي: 

(3,...,- ح قر )( ,ناا ,)رم 

المخرجات: هل يوجد طفرة تصاحب أم لا؟ وما موقعها؟ 

يتم حساب متوسط عدد مرات التصاحب بين الكلمتين (:701,10 
بالإضافة إلى نتيجة معادلة (3:--:2:201()77-3 بالنسبة إلى كل موقع من 
مواقع التصاحب. 


تتفيذ الخطوات التالية مع كل حالات ل: 
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إذا كانت 0 > ع )م 0305 بالإضافة إلى أن: 


0 -< (:110,110) ريه : أوء 


0 > ( لها نهل )م ك5 1.00 بالإضافة إلى أن: 


0 2 (إنلا10) رك أو 


0 > (7)101 3.005 بالإضافة إلى أن: 


0 ( ناا ,)رك 5 
2100 700:00 , بالإضافة إلى أن 21-00 (:10,10)ر2 


تكون 7 موضع طفرة في التصاحب. وإلا فإن 7 لاتمشل طفرة 


طريقة الحساب السابقة تقسّم متوسط التصاحبات بين الكلمتين 
10 إلى عدة قطاعات» وتقوم بحساب قيمة (210107 لكل قطاع يُمَل 
فرة تصاحبية. والأرقام الموضّحَة سالفا قد تم تحديدها من خلال التجارب» 
وبصورة عامة فإن قيمة متوسط المشاهدات 701١1‏ قليلة لأن عدد مرات 
مشاهدة التصاحب منخفضة:؛ وعلى ذلك تكون درجة مرجعية البيانات 
الإحصائية ضعيفة؛ ولذلك ينبغي تعديل رقم البداية إلى رقم أعلى من ذلك؛ 
وعلى العكس من ذلك عندما تكون البيانات الإحصائية وافية» يمكننا تعديل 
رقم البداية إلى قيمة أقل. على سبيل المثال نجد أن التصاحب "229 ,887" 
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ظهر في ذخيرة 305-0017105 عشر مراتء وبناءً على ذلك كانت قيممة 
متوسط عدد مرات التصاحب )3696:8827(-٠٠ .١‏ 7» وبذلك تكون درجة 
ضجيج البيانات مرتفعة إلى حد كبيرء ولو أننا قمنا بتعديل قيمة الفرض 
. المبدئي إلى رقم أكبر (أكبر من ”؟. )٠١‏ فسوف تكون النتيجة أن 7. 
-(329:8821) -2 وهذا الرقم يمكن أن يمت مرجعية لحساب درجة 
ظهور الطفرة التصاحبية عندما تكون 7-2 . أما التصاحب '©2 ,883" 
فقد ظهر في الذخيرة عدد 554 مرةء وعلى ذلك يكون مقدار متوسط عدد 
مرات الظهور 5.40-(7)882,32: وهذا الرقم يمكن الاعتماد عليه» وعلى 
هذا يمكننا تقليل درجة البداية قليلاً (أكبر من .١‏ 0): وبذلك تكون ١‏ 
4-(2:28820) 7 وهذا الرقم يمكن أن يُعتَبَر مرجعية لتقدير ظهور: الطفرة 
التصاحبية عند 21 /. 

إن قيمة متغير درجة التشتت والطفرة التصاحبية من شأنهما أن يَقَدْما 
بيانات مرجعية تفيد في عمل دراسات كمية عن أبنية التصاحب اللغوي. 
ويرى سون ماو سونغ أنه على الرغم من أن هذين المتغيرين لهما قيمة 
مرجعية عالية» فهما لا يكفيان لإثبات وجود التصاحب بمفردهما. 

وهناك عدد من التصاحبات تكفى درجة قوة التصاحب بين كلماتها 
لإثبات التصاحبء ولا يستلزم ذلك وجود درجة انتشار عالية» وأكثر من ذلك 
قد لا يحدث بينها طفرة تصاحبية (من الواضح أننا لو انطلقنا فقط من درجة 
توزيع التصاحب فإن الطفرة التضاحبية سيكون مطلبًا صعب المنال بالنسبة 
إلى الكلمات المتصاحبة). ومن هناء فإن الاحتكام إلى متغيّري درجة الانتشار 


348 


والطفرات التصاحبية لا يتم اللجوء إليه إلا عندما تكون المعلومات الخاصة 
بقوة التصاحب غير كافية لاتخاذ قرارات صائبة. 

وفيما يلي نعرض مجموعة المتواليات المنطقية التي صممها سوين ما 
سونغ للحكم على وجود علاقة تصاحبية بين كلمتين؛ التي اعتمد فيها على 
حساب المؤشرات الثلاثة: درجة قوة التتصاحب (معادلة 5-5 ودرجة 
الانتشار (معادلة 5-5): والطفرة التصاحبية (معادلة 2/15 

وقد أطلق سوين ماو سونغ على تلك المعادلات اسم 
(100211011)180,10أم0 دئز 

المدخلات: قوة التصاحب 001(7”, ودرجة انتشار التصاحب 
(20019, والمتوسط الحسابي لعدد مرات التصاحب (7”0”:71, بالإضافة 
إلى عدد مرات التصاحب في كل موقع لله احب (3,...,5- > ق)( ,نا ,)رك 


11 اا 


لأي زوج من الكلمات 


المخرجات: الحكم على وجود علاقة تصاحبية بين كل من 1:7 مسن 
عدمه. 


إذا كانت 0:30 > (:015:1/, فين 07 لا ترتبطان بعلاقة تصاحبية. 
إذا كانت 0 2 ( با ,لاي إذن فإن اننا ترتبطان : لاق تصاحبية. 
وإلاء إذا كان . 4.50> )1140 110)ى 5 , بالا : افة / أن 


0 ( اناالا 
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إذن فإن 1" ترتبطان بعلاقة تصاحبية. 
وإلا إذا كان . 3.50> )10 011 > 2.50 1 بالا 3 افد / أن 
0 2< ( ,ناا ,ناا ) 14 
يتم الحكم على أن 7" ترتبطان بعلاقة تصاحب. 
وإلا إذا كانت 22:00 (5019,1 . 
يتم التعديل إلى معادلة الطفرة التصاحبية (/08/019:9م - 85 , 
إذا ظهرت طفرة تصاحبية 
إذن فإن 7 ترتبطان بعلاقة تصاحب. 
وإلا فإن 01 لا ترتبطان بعلاقة تصاحب. 
من خلال المتواليات المنطقية السابقة يمكننا أن نقرر أن هناك ثلاثة 
شروط تتأكد عندها العلاقة التصاحبية بين كلمتين: 
))( عندما تكون درجة القوة التصاحبية بين الكلمتين كبيرة بدرجة 
كافية» فلا حاجة لحساب درجة الانتشار. 
(؟) كلما تناقصت درجة القوة التصاحبية زادت الحاجة إلى حساب 
درجة الانتشار. 
(؟) عندما تنخفض درجة القوة التصاحبية إلى حد معين» يتأكد حدوث 


طفرة تصاحبية. 
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وهناك ثلاثة شروط لنفي وجود التصاحب: 


)١(‏ أن يكون عدد مرات ظهور الكلمتين معًا منخفضنًا بدرجة كبيرة:؛ 
والبيانات المُحصلة ليس لها مغزى إحصائي. 

)١(‏ أن تكون درجة القوة التصاحبية منخفضة» ولم يصاحبها طفرة 
تصاحبية. 


(؟) أن تكون درجة القوة التصاحبية منخفضة وعلى الرغم من حساب 
درجة التشتت والطفرة التصاحبية» فإن النتائج النهائية ليست ذات 
وقد قام سوين ماو سونغ بعمل تحليل تفصيلي لجميع أنواع حالات 
الظهور المشترك بين كلمة "8827” والكلمات الأخرى في محيط قدره 5+ 
كلمات وذلك على ذخيرة 5751-60127115 التي يصل حَجْمُها إلى سبعة 
ملايين ومائة ألف كلمة. وكانت نتيجة التجربة ما يلي: وصل عدد مرات 
ظهور كلمة "882" داخل الذخيرة إلى 774١‏ مرة: (أي أن 
روغ > 2241.1 ”201 ) كما وصل عدد الكلمات التي اقترن ظهورها مع 
كلمة "8520" في سياق يصل طوله إلى 5+ كلمات إلى ١177‏ كلمة» وقد تم 
التعامل مع جميع هذه الكلمات على أنها مُرَشحّة لأن تَكُون من مصاحبات 
كلمة "[852". تم استبعاد عدد ١7١1‏ كلمة بعد تحقيق الشروط الثلاثة لنفي 
وجود التصاحب: وكانت تفاصيل قرار الاستبعاد كما يلي: 
)١(‏ تم استبعاد عدد 157 كلمة ينطبق عليها الشرط الأول لنفي 
التصاحب. 
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(1) تم استبعاد عدد 7٠١١‏ كلمة ينطبق عليها الشرط الثاني لنفي 
التصاحب.- ٠‏ 

(") تم استبعاد عدد ١54‏ كلمة ينطبق عليها الشرط الثاني لنفي 
التصاحب. تم الإبقاء على عدد 5١6‏ كلمة بعد تحقيق الشروط الثلاثة لإقرار 


التصاحب: 

أ - تم تأكيد علاقة التصاحب لعدد 4١١‏ كلمة وفقًا للشرط الأول لتأكيد 
غلاقة التمداحبة: 1 

ب - تم تأكيد علاقة التصاحب لعدد 77 كلمة وفقا للشرط الثاني لتأكيد 
القضناي: 


ج - تم تأكيد علاقة التصاحب لعدد 1717 كلمة وفقا للشرط الثالدث 
لتأكيد التصاحب. وقد كان من بين الكلمات التي تم تأكيد علاقة التصاحب 
معها عدد 84 كلمة؛ ولا يمكن وجود علاقة تصاحب بينها وبين كلمة "[88" 
(مثل كلمات الأعداد"3 ,-" بمعنى "واحدء ألف')» والكلمات المساعدة 
(مثل"7 ,88")» وأداوت العطف (مثل "218 ,78" بمعنى 'وء سواء')؛ 
والظروف (مثل”84©# ,72" بمعنى 'لا النافية» إلى حد ما")؛ وما إلى ذلك؛ 
وباستخدام برمجية بسيطة من برمجيات الترشيح يمكن استبعاد تلك الكلمسات 
من النتائج النهائية. وبالإضافة إلى ذلك؛ فقد كان هناك عدد من أخطاء الحكم 
على وجود علاقة تصاحب وصلت إلى 75 حالة؛ بسبب وجود خطأ في 
التقسيم الآلي لحدود الكلمات الصينية» على سبيل المثال عدم اشتمال معجم 
التقسيم الآلي لحدود الكلمات لكلمة "2ل" بمعنى "يتحكم'» الأمر الذي أدى 
ببرمجية التقسيم إلى اعتبار أن "2839:8820" بمعنى "القدرة على التحكم" يتم 
تقسيمها إلى "18/5/8827" ومن هنا فقد أدى ذلك إلى أن برمجية الحُكم على 


352 


التصاحبات اللغوية اعتبّرت أن كلا من "8827 ,+#” و "8627 ,:#" تمثلان 
تصاحبين لغويين بمعنى "القدرة على النقل”؛ و"القدرة على توجيه الاتهام' 
على التوالي وهذا خطأ بالطبع. والحقيقة أن التصاحب هو "652 ,1/1125". 
وبعد استبعاد عنصري الخطأ السابقين كانت حالات التصاحب التي تم 
تقريرها آليّا هي 41/8 حالة تصاحب. وبعد إجراء مراجعة من خلال العنصر 


البشريء تم إقرار عدد ١19‏ حالة تمثل تصاحبًا حقيقيًا. وبعبارة أخرى» فإن 


6 0 


نسبة دقة الحاسب في استخراج التصاحبات اللغوية وتحديدها قد وصلت إلى 


4145--38 1/15 .. ويعرض لنا الجدول 5-4 جزءًا من نتيجة التجربة 


التي تم إجراؤها على كلمة "8527" في اللغة الصينية. 


جدول 5-4 عرض جزء من البيانات التجريبيةل 


2210 - ر00 رقع - «) 


نعم (تأكيد 1) 


3 58 1651 91 نعم (تأكيد 1) 
4 | 3 177 9 نعم (تأكيد 1) 


نعم (تأكيد 1) 
نعم (تأكيد 1) 
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00 آ5 


22.4 


2416 
055 


384 


233 


تابع الجدول السابق 


قضل 


2 1 

وقد عقد سوين ماو سؤنغ مقارنة بين كل من نتائج التصاحبات التي 
توصل إليها بعد مراجعتها من خلال العنصر البشري وتصاحبات كلمة 
"882" التي وردت في (المعجم الكبيير في اللغة الصينية الحديثة) 
'1 211115" نظرا إلى أن هذا المعجم هو أكثر معجم قام بتغطية 
الخصائص التصاحبية للكلمات الحقيقية في اللغة الصينية الحديئشة بصورة 
وافية. ويعرض القسم (8) من الجدول رقم 5-4 عناصر التصاحب التي تم 
تكرارها بين نتيجة التجربة والمعجم؛ أما الجزء (5) من الجدول فيعرض 
التصاحباك التي لم يتكرها المعجم. ويمثل هذا الجدول في الوقث .لتقفسه 
القائمة الكلية للتصاحبات اللغوية مع كلمة "8527" التي تم استخراجها آليّا بعد 

مراجعتها من خلال العنصر البشري. 


( 
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جدول 1-4 التصاحبات اللغوية التي تم استخراجها آليا بعد مراجعتها عن طريق 
عنصر بشري 
(المجموع ١١8‏ تصاحبا) 
)8 


[21 -ل111 ا#قعة غذاة 5 مرك عه الك 1836 
8 222 38399 228 ع2 جل 2917 734 ايا 75101 7 
1 22 1 27 2124 25 كد ردي جناا 28 1855 
751 71 329 213 12340 ذا 198 8 الاي 27 

)م 

11 الا 7212 102 -أناعا [أأندخة ينان( 258 2 13 اكز 
011 111 ه71 :802 22 22 كا الالة ع -- 2 1 عاج 
1 384 8216 +874 قعل 1517 ارقا لاع خد ري ا(للهة لد 8 
لاقع 3ل:8 للا1 20345 9073 839 *87 8384 842 92 1818 
0 اناا1 2014 ج22 ]1011 9142 4212 1945 2186 الأللقة 
القا +21 121 2 8 2185 كه [ننه وولانا خكاة لارنانا ددر 
4 21 51 1 ع 10 لل ج81 نلك 21 23 
21 ا 18111 219 نذا 1ك دان 1239 كه 121/26 83 نار 
3 اق 14# +21 112 2212 323 2212 2:11 جر 184117 
ل ا ل ا ا ا ل 0 
ا 2:5 اناعة ملاقة 135 2596 222 خظللة 28 عر +125( 
159 4لا ا" 


ويشير الاستقراء الذي أجراه سوين ماو سونغ على التصاحب داخل 
الذخيرة إلى ما يلي: 
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,501:1( أن كلا من القيم الإحصائية الثلاث: القوة التصاحبية‎ )١( 
ودرجة الانتشار 2019 والطفرة التصاحبية قيم إحصائية مناسبة‎ 
لعمل تحليل كمي للتصاحب اللغويء إلا أنها لا تتعدى كونها‎ 
مؤشرات نسبية» والدليل على ذلك أن الجدول رقم 5-4 قد احتوى‎ 
أمثلة تَمَتّل خطنًا في الحكم؛ نظر! إلى عوامل مختلفة.‎ 

(؟) أن الخصائص التوزيعية للبيانات الإحصائية تعكس بدرجة كبيرة . . 
الخصائص التركيبية للتصاحب. 

فالشكل 57-4 يوضح أن جميع حالات التصاحب بين كل من 

"بل ,د88" عبارة عن تركيب فعل ومفعول (حيث ظهرت الطفرة 
التصاحبية في الموقعين -7:-)» أما الشكل 5-4 فيُظهر أن جميع حالات 
التصاحب بين كل من "2 ,88237" عبارة عن تركيب إسنادي (حيث ظهرت 
الطفرة التصاحبية في الموقع »)١+‏ أما الشكل (4-؟) فيُظهر أن التصاحب 
"425 ,87" قد يكون تركيبًا من فعل ومفعول (حيث ظهرت الطفرة 
التصاحبية في الموقعين -7.-4)» وقد يكون أيضنًا تركيبًا إسناديًا؛ أما الشكل 
5-4 فيُظهر أن التصاحب بين "758 ,8820" قد حدث معه طفرة تصاحبية 
كبيرة (في الموقع -١)؛‏ وهذا يُعبّر عن نموذج من نماذج التصاحب اللغوي 
القياسي في اللغة الصينية وهو التعبيرة الاسمية المكوّئة على هيئة مسضاف 


ومضاف إليه أو صفة وموصوف. 
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عدد مرات ظهور الكلدتين مغًا 
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)١(‏ أن التصاحب يتأثر بتغير المجال اللغوي. فالتصاحبين اللغويين: 
المتفق عليهما من الجميع "[18:852" بمعنى "القدرة على القراءة» 
و "51488521" بمعنى "القدرة على الإنشاء" لم يظهرا في ذخيرة 
81-5 بسبب اختلاف المجال اللغوي.وحتى إذا تم تحديد 
المجال اللغوي؛ فإن حجم الذخيرة وطرق اختيار عينات النصوص 
من شأنه أن يؤثر تأثيرًا شديدًا في عملية إحصاء التصاحبء كما في 
الجدول 5-4 حيث نجد أن التصاحبات "2528827" (درجة القوة / 
التصاحبية ". 4)» و'9530627" (الطفرة التصاحبية عند 
الموقع -١)؛‏ و"6827 9886" (درجة القوة التصاحبية .1١‏ 17): 
على الرغم من أن عدد مرات الظهور كانت مرة واحدة؛ فالجميع 
يتفق على أن كل هذه المجموعات تمثل تصاحبات لغوية. إلا أنه 
بالنظر إلى البيانات الإحصائية الخاصة بها نجد أنها بمشقة قد 
سحت لأففان التطداحت» ولقن كرا ل "تعاس عند رين 
ظهورها داخل ذخيرة 1-00188105!! فقد تم استبعادها من 
القائمة النهائية للمتصاحبات. ْ 
(؛) أنه بالنسبة إلى قيمة الفرض المبدئي يتم تحديدها كقيمة وسط بين 
كل من معدل الدقة (يُقصد به نسبة ما تم إقراره من تصاحبات عن 
طريق تدخل العنصر البشري مقارنة بما تم اكتشافه بواسطة الآلة) 
ومعدل الارتداد (يقصّد به نسبة التصاحبات التي ئها الآلة مقارئة 
بالعدد الكلي للتصاحبات المٌرّشحة داخل الذخيرة). وبصورة عامة 
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كلما ارتفعت قيمة البداية» ارتفع تبعًا لذلك معدل الدقةء وعلى 
العكس من ذلكء كلما انخفضت قيمة البداية» ارتفع معدل الارتداد 
وانخفض تبعًا لذلك معدل الدقة. 


وقد كانت الدراسة الاستقرائية لسوين ماو سونغ على الذخيرة تسعى 
إلى اكتشاف أكبر قدر من التصاحب اللغوي بغض النظر عن دقة النتائج 
النهائية» على اعتبار أن زيادة العدد أفضل من القصور في الحصر؛ ولذلك 
فقد كان متحفظا في تحديد قيمة البداية. 

وإذا أردنا أن نعرف هل 901٠0‏ تقرييًا كمعدل دقة لنتائج التصاحبات 
فيما يتعلق بكلمة "8823" منخفض أم لاء يمكننا أن نطلع على ما أشار إليه 
منمادجا من أن معدل دقة نتائج التصاحبات التي تم اتباعها يدويًا في تأليف 
معجم (0159) :و5141 طدذاعم1 0200 كانت 994 تقريبًا. وعن طريق 
المقارنة يمكننا القو ل: إن الاستعانة بالحاسب الآلي في اكتشاف التصاحب 
اللغوي يفوق العمل اليدوي» وأن فاعلية النتائج باستخدام الحاسوب أعلى 
بدرجة كبيرة. بالإضافة إلى ذلك فإن استخدام الأسلوب اليدوي من شأنه أن 
يتأثر سلبًا بالعوامل البشرية؛ لأن الإحساس اللغوي يختلف من باحث إلى 
آخر؛ لأن ذلك له علاقة باختلاف المستوى اللغوي والخلفية المعرفية لكل 
شخصء ومن هنا تكون أحكام البشر على التصاحب خالية من الموضوعية؛ 
ومن: الصعب التنسيق فيما بينهم. أما استخدام الحاسب الآلي في عمل تحليل 
كمي للتصاحبات اللغوية داخل ذخيرة لغوية كبيرة الحجم من المؤكد أنه 
يخفف قوة ضغط العمل على اللغويين» ويرفع من كفاءة النتائج ومساحة التغطية. 
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الفصل الرابع 
دراسات التصنيف الدلالي للأسماء في اللغة الصينية 


من المعلوم لدى الجميع أن التصاحب بين الاسم والكلمة الكمية') من 
الظواهر المهمة التي تميز اللغة الصينية عن اللغات الهند أوروبية. ويرى 
:العديد من العلماء أن الفائدة الأساسية لتراكيب الاسم + الكلمة الكمية في اللغة 
الصينية الحديثة هي تصنيف الأسماء دلاليًا. ولذلك فإن إجراء استخراج كمي 
على ذخيرة كبيرة الحجم للتعرف على البيانات الكَمّيَّة لتصاحبات الاسم + 
الكلمة الكمية من شأنه أن يساعد في وضع آلية للتصنيف الدلالي لأسماء 
اللغة الصينيةا). وكانت تلك هي الخلاصة التي توصل إليها العلماء 
التايوانيون خوانغ جو رنء؛ وتشين كه جيان» وجاو جاو مينغ من خلال 
الدراسة التي أشرفوا عليها. وقد استعانت هذه الدراسة بشكل مباشر بالبيانات 
التصاحبية عن الأسماء + إلكلمات الكمية التي استخرجها مؤلف الكتاب مسن 
ذخيرة أبحاث اللغة الصينية. وعلى أساس تلك البيانات الكمية الثابتة استعانوا 
بمعادلة الضجيج المعلوماتي في حساب محتوى المعلومات داخل تركيب 


)١(‏ انظر الفصل السابق صفحة 144. (المترجم) 
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الاسم + الكلمة الكمية مع الاستعانة بأسلوب المُتّجَهات() (620015؟) في 
حساب مقدار التقارئب (الدلالي) بين مجموعتين من المجموعات الاسمية. وقد 
توصل البحث إلى أن استخدام الطريقة سالفة الذكر من شأنه أن يُرشد في 
التوصل إلى نظام يمكن الاعتماد عليه بشكل كبير في تصنيف الأسماء في 
اللغة الصينية. وقد استعان الكتاب الذي بين يدي القارئ بهذا المثال للتعريف 
بالدراسات اللغوية القائمة على ذخائر لغوية» ويرجع ذلك إلى السببين 
التاليين: 
)١(‏ إن هذه الدراسة قد اعتمدت على أمثلة حقيقية عن تراكيب الاسم 
+ الكلمة الكمية والبيانات الإحصائية المتعلقة بهاء التي تم 
استخراجها مباشرة من ذخيرة معهد الدراسات المركزي بتايوان» 
وقد عُرِضّت نتيجة الدراسة في (معجم الكلمات الكمية المستخدمة 
في تايوان) الصادر عام ١951‏ عن درا نشر الصحافة بتايوان. " 
(؟) إن عمل تصنيف لأسماء اللغة الصينية» وفقا لحالات اقترانها مع 
الكلمات الكمية يتحتم عليه إجراء تمثيل شكلي مستقل عن حالات 
اقتران الكلمات الكمية مع الأسماءء بالإضافة إلى عرض المعادلات 
الخاصة بحساب درجة التشابه فيما بينها. ففي هذه الدراسة» يتم 


)١(‏ المتّجه (66]05؟) مصطلح في الفيزياء يعني قيمة لها حجم واتجاهء ويتم تمثيلها بسهم 
يُعَبّر عن اتجاهها من نقطة إلى أخرىء والكمياث المُّتجّهة تختلف عن الكميات العددية 
في أنه لا يمكن الاكتفاء عند تحديدها بقيمة عددية فقطء وإنما نحتاج أيضًا إلى تحديد 
اتجاهها. وقد استعان علماء اللغة بهذا المفهوم في حساب درجة اتجاه التصاحب بين 
الكلمات كما يشير النص. (المترجم) 
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حساب الحمل المعلوماتي( الخاص بالكلمة الكمية (يطلق عليه 
أيضمًا اسم الإنتروبي أو مقياس درجة الفوضى) من خلال عدد 
الأسماء التي يمكن أن تقترن معه؛ أما معاني كل اسم من تلك 
الأسماء فيتم التعبير عنها من خلال مجموعة الكلمات الكمية التي 
يمكن أن يَعَبّل الاقتران بها (المتجّهات التي تتكون من ذلك 
الاقتران). ولذلك فمن خلال حساب الفرق بين مُتَجَهات الأسماء 
يمكننا عمل تصنيف لمجموعة الأسماء داخل اللغة؛ ومن ثَمَّ التوصل 
إلى آلية للتصنيف الدلالي لها. إن التمثيل الشكلي للمادة اللغوية التي 
يتم معالجتها وتصميم معادلة مناسبة لحساب طريقة التعامل معها 
تمثل أسلوبًا مثاليًا للنمذجة اللغوية (70061179) بالإضافة إلى 
إمكانية تعميمه. 
وحتى نفهم العمل البحثي الذي قام به خوانغ جو رن وفريقه البحشيء من 
الضروري أن نشرح بشيء من التفصيل مفهوم الحمل المعلوماتي الخاص بِحَدَّث 
عشوائي والذي ورد في نظرية المعلومات للعالم كلود شانون (02هههط89[)5]. 
بافتراض أن إس تَعَبّر عن الأحداث العشوائية 20:422::::4» فإن احتمال حدوث 


)١(‏ الحمل المعلوماتي أو (الإنتروبي) (لإم610410) أو مقياس درجة الفوضى مصطلح في 
الفيرياء والكيمياء يشير إلى التغير والتحول إلى حالة من الفوضى على الممسستوى 
الجزيئي في نظام ماء كمثال اختلاط نقطة حبر بالماء» في البداية يكون توزيع ذرات 
الحبر في الماء غير منتظم» وبعد انقضاء فترة زمنية يكتسب الماء لونا متجانسا» ومن 
هنا يمكننا اعتبار درجة الحيرة أو الإنتروبي مقياسا لعدم التأكد أو مقياسَا لعدم 
الانتظام. (المترجم) 


23203 


أي حدث من تلك الأحداث '2 يُرْمَز له بالرمز :7 . وطبقًا للمبادئ الأساسية لعلم 
الاحتمال فإن: | ع يم +...+ يم + رمءاع رمع 0, 


والحمل المعلوماتي لحدث محدّد :© يُحْسَب من المعادلة: 


(انط) و108- - (رط) 1 


1 معادلة رقم (075) 


وطبقا لبديهيات علم الاحتمال يمكننا أن نغرف أن الحمل المعلوماتي 7 
أكبر من الصفر؛ وأنه كلما قلت قيمة احتمال ظهور الحدثء زادت قيمة 
الحمل المعلوماتي المصاحب له. الأحداث المؤكذة يكون الحمل المعاوماتي 
الخاص بها (1> ) يساوي صفرا؛ أي أن ظهورها من الأحداث المتوقعة: 
وعلى هذا فهي لا تحمل إلينا أية معلومات. : 

يمكن الاستعانة بقيمة درجة الحيرة (الإنترويي) (7605 في الرسالة 
الكلامية للتعبير عن قيمة المتوسط الإحصائي لكمية المعلومات الخاصة بكل 
عنصر من عناصر الرسالة الكلامية 5؛ وذلك وفقا لكمية المعلومات (:1)2 
التي يحملها كل حدث داخل الرسالة الكلامية (الحمل المعلوماتي) 5؛ كما 
توضح المعادلة التالية: ش 


(فنط) دز 


معادلة رقم (6-4) 
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ونظر! إلى أن قيمة الحمل المعلوماتي للحدث العشوائي تزداد بزيادة 
درجة عدم اليقين من حدوثه؛ لذلك يمكننا الاعتماد على قيمة الحيرة في 
الرسالة الكلامية (الإنتروبي) كمقياس لدرجة عدم اليقين في حدوث تلك 
الرسالة. وعلى هذا الأساسء لا يمكن أن تكون درجة الحيرة في الرسالة 
الكلامية (الإنتروبي) قيمة سالبة» فكلما زادت قيمة درجة الحيرة ارتفعت تبعا 
لها قيمة عدم اليقين في حدوث الرسالة. وعلى العكس من ذلكء إذا كانت 5 
رشالة كلامية مؤكدة الحدوثء فإن قيمة درجة الحيرة لها تكون صفرًا. 

على فرض أن هناك رسالة كلامية بها عدد /4 من الأسماءء ومن بين 
هذه الأسماء هناك الاسم ”7 يمكن أن يتصاحب ظهوره مع الكلمة الكمية. 1 
إذن الحمل المعلوماتي لهذه الكلمة الكمية يساوي الفرق بين درجتي الحيرة 
(الإنتروبي) التاليتين: 


1) - 8 )17(- 8 22 


معادلة رقم (1-4) 
وإذا كان احتمال ظهور كل من الاسم والكلمة الكمية متساوء فإن 


احتمال ظهور اقتران بين كل اسم ضمن مجموعة الأسماء /7 وكلمة كمية 
1 
معينة يساوي 7 » ودرجة الحيرة له يتم حسابها كما يلي: 
دروا (لم روه طن - رى) و 
1 م 


معادلة رقم )٠١-54(‏ 
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وبالطريقة نفسها فإن درجة الحيرة لاقتران الاسم ” داخل رسالة كلامية 


اوها - (ل) رمه اك 8000-3 


معادلة رقم )١١-54(‏ 
ومن هنا فإن الحمل المعلوماتي للكلمة الكمية * يُحْسَب من المعادلة التالية: 
«رع10- ل رع10 - («) 1 
معادلة رقم (4-؟7١)‏ 
ونظرً! إلى أن /7 قيمة ثابتة» فإن المعادلة السابقة يكيرنا أنه كلما قل 
عدد الأسماء التي تقترن بكلمة كمية معينة» زاد الحمل المعلوماتي لهذه الكلمة 
الكمية» وزادت تبعا لذلك قدرة هذه الكلمة في المساهمة في عمل تصنيف 
دلالي للأسماء في اللغة الصينية. وهذا يتفق إلى حدٌّ كبير مع الشعور البديهي 
لكل منا. 
عندما نستخدم مُتجَهًا متعدد الأبعاد للتعبير عن كل اسم (أو مجموعة 
أسماء) داخل السلسلة الكلامية» فإن كل بُعْد من هذه الأبعاد يُعَبّر عن كلمة 
كمية محددة داخل السلسلة الكلامية» وقيمة المُتجه في بُعْد معين من تلك 
الأبعاد يساوي الحمل الملعوماتي لهذه الكلمة الكمية (المعاطشة )٠١-4‏ وإذا 
كان هذا الاسم (أو مجموعة الأسماء) لا يمكن أن تظهر مع كلمة كمية معينة» ' 
فإن قيمة المّتجه الخاص بها يساوي صفرًا. وعلى أساس ما يُعَبّْر عنه 
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المج يمكن قياس درجة التقارب الدلالي ()نه286) بين اسمين (أو 
مجموعتين من الأسماء) عن طريق حساب الفرق بين قيمة مُتَجَ 

000 

الأسماء تقوم بإنشاء تصنيف جديد للُسماء عن طريق ضم أكثشر اسمين 
متشابهين معًا في تصنيف واحدء وقد نشأ عن ذلك في النهاية شجرة دلالية 
للأسماء. وقد كاتنت خطوات الحساب التي أدت إلى عمل تصنيف للأسماء 
كما يلي: 

)١(‏ من خلال المعادلة »)١75-4(‏ تم حساب الحمل المعلوماتي لعدد 
كلمة كمية. 

(1) تم اعتبار أن كل كلمة كمية من ال 187 كلمة يُمَتلّها بعد واحد 
داخل متّجه ذي 187 بُمَْاء الحمل المعلوماتي لكل كلمة كمية 
يساوي قيمة من قيم المُّتّجه متعدد الأبعاد. 

(5) كل نوع من أنواع الأسماء يساوي متها من تلك المُتّجهات» وهذا 
المتّجه يتم الاعتماد عليه في تحديد قيمة المُّتجه الخاص بكل 
الكلمات الكمية التي تتصاحب مع هذا الاسم وفي وضع تعريف لهذا 
التصنيف من تصنيفات الأسماء. 

)5( بصورة متكررة:» يتم ضم أي تصنيفين متجاورين من تصنيفات 
الأسماء بشكل عشوائي في مجموعات لتكوين تصنيف جديد»ء 
واستخدام قيمة المُتّجه المقابل لهما في التعبير عن ذلك التصنيف» 
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وهذا المُتّجه الجديد عبارة عن متوسط قيمة المُتّجهين الأصليين 
لهذين التصنيفين (أي 2*72(/2)). ويتم تكرار هذه الخطوة غير 
مرة إلى أن يتبقى تصنيف مفرد. ٠‏ 
في الخطوة الأولى مما سبق تم التوصل إلى حساب الحمل المعلوماتي 
لكل كلمة كمية. وقد أظهرت نتيجة البحث أن أقل كلمة كمية من حيث الحمّل 
المعلومات هي الكلمة الكمية "7/4')؛ حيث كان الحمل المعلوماتي الخاص بها 
هو 121553. وهذه نتيجة غير متوقعة؛ وذلك لأن الكلمة الكمية "4" هي أكثر 
الكلمات الكمية التي يتفق عليها الجميع من حيث الوسطية والشيوع؛ حيسث 
يزداد عدد الأسماء التي تتصاحب مع هذه الكلمة الكمية؛ ومن تَمَّ فإن قدرتها 
على المساهمة في عمل تصنيف للأسماء ضئيلة للغاية. وباستمرار 
استعراض النتيجة» نجد أن الكلمة الكمية "5" التي وصل حملها المعلوماتي 
إلى مقدار 705 هي كلمة كمية عامة تَْتَخْدم مع الأسماء التي.تُعَبّر عن 
أسماء الجنس البشري. والكلمات الكمية التي تقترب قيمة الحمل المعلوماتي 
لها من الكلمة الكمية "5" هي "812" و”##', و"1ل "2 وهذه الكلمات الكمية من 
الكلمات العامة التي تقترن مع عدد كبير من الأسماء. كانت الكلمات الكمية 
"!قلا" و']"؛ و"د", و5" ذات أكبر قيمة للحمل المعلوماتي للسلسلة 
الكلامية الاسم + الكلمة الكمية؛ حيث وصلت إلى ١١١57‏ وذلك لأن كلا 
منها لم تقترن إلا باسم وأحد. 


)١(‏ الكلمات الكمية في اللغة الصينية لها استخدام وظيفي للفصل بين العدد والمعدود كما 
أسلفناء وليس. لها معنى مقابل في اللغة العربية . (المترجم) 
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وعلينا أن نلاحظ أنه في الخطوة الثالثة تم استخدام قيمة المّتّجه المُعبّر 
عن كل مجموعة من مجموعات الأسماء في التعبير عن تعريف للعدد الكلي 
للكلمات الكمية التي يمكن أن تتصاحب مع تلك الأسماء. وفي علم اللغة يمكن 
شرح تلك الطريقة على أنها: استخدام جميع الكلمات الكمية التي يمكن أنْ 
تقترن مع الأسماء في وصف الخصائص الدلالية المشتركة التي تتمتع بها 
تلك المجموعات من الأسماء. ولذلك فإنه نتيجة لعدم القدرة على التمييز بين 7 
مجموعات الأسماء التي تشترك في التصاحب مع كلمة كمية واحدة؛ يتم 
اتخاذ قرار منطقي بضمها معًا في تصنيف واحدء بالإضافة إلى التعبير عنها 
بمتّجه واحد. لذلك؛ فعلى الرغم من أن معجم الكلمات الكمبية يضم عدد 
٠‏ لاحقة اسمية وما يزيد عن ٠٠٠١‏ مادة؛ فإنه لم يتم التقسيم إلا إللى 
عدد 007 سلسلة كلامية من اسم + كلمة كمية مختلفة والمُتّجهات الخاصة بها. 

إن نتيجة عملية التصنيف سالفة الذكر قد تم: التوصل إليها من خلال 
تصور شجرة ذات فرعين. وكل طرف من أطراف تلك الشجرة يشير إلى 
٠‏ اسم من الأسماء يشار إليه من خلال الكلمات الكمية التي تقترن معه. وأي 
اسمين بينهما أكبر قدر من التقارب في القيم يتم ضمهما معْا في تصنيف 
اسمي جديد. ويتم تكرار تلك العملية إلى أن يتم وضع جميع الأسماء في 
تصنيف ينتمي إلى شجرة واحدة. إن مدى مناسبة ومصداقية الفرض وطريقة 
الحساب التي اعتمد الكاتب عليها يتوقف على مدى قدرتنا على تقديم تصنيف 
دلالي مناسب انطلاقا من تلك الشجرة التي تم التوصل إليها. ش 

وتشير نتيجة التجربة التي قام بها خوانغ جو رن وفزيقه البحشي أن 
الشجرة التي يقل عدد أفرعها عن أربعة أفرع» يمكن الحصول منها علئ 
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نتيجة تصنيف دلالي موثوق بها. وقد حصلوا من خلال تلك الطريقة على 
.-6/ تصنيفا له مغزى من تصنيفات الأسماء»ء ويعرض الشكل 1-4 
تصنيفين من تلك التصنيفات. 
شكل (5-4): جزء من نتيجة التصنيف الدلالي للأسماء 
[ كلا و [8 2 , ]272 3 .8 
زا ,لا ,:8ة] 8 , 854 , 84 , 284 ١ 88 ١‏ 185 
قا ,581 ,:# ,تظ ,]2679 ١‏ وراعة 


عد , قط , 8|355 8ائ ,قا( .2218 ١‏ لات , ام 
1 ,5 ,8# ,كف ] ا , 5 , 85 ,ع ,8352 , 


[8 .8# ص6©8]32 4.0 
6 ,]5 ,7# , 545 ,#6 ,ادام ,7074 


2 57 632 تون لطن اتعن اليك 
دك , ب , د ,و , 31538 [44 , 4# ,42 اا 
١ 708 ١ 48 , 818 , 1836 ] 32 , 8 18[‏ 119 


, 2708 , لج , 18 , #لاظ , ققظة . 1188 , عا 
لان دعاسيس سرف 


,8 ,4 ,86 ,خ3ة ]824 ,11سة 

كما أظهرت نتيجة التجربة أنه عندما تزيد أفرع الشجرة عن خمسة 
أفرع فإن النتيجة تشير إلى اختلافات كبيرة يتعذر معها التصنيفء وفيما يلي 
نقدم شرحًا لأسباب ذلك: : ١‏ 


)١(‏ من المحتمل ألا تكون قيمة المُتّجّه الجديد الذي يُحسّب بعد عملية 
الجمع بين الأسماء غير مؤكدة. وهذا الوضع يؤدي إلى اختفاء 


320 


. بعض العناصر بصورة سريعة؛ وذلك لأن عدم تمييز الكلمات 
الكمية غير الاقترانية في أثناء حساب الحمل المعلوماتي لمجموعة 
الكلمات الكمية موضع الدراسة يؤدي إلى حدوث تصنيف خادع 
وغير واقعي للدُسماء. ولذلك نجد أن هذه الطريقة لا تُمكننا بن 
تمييز حالتي التضارب الدلالي وعدم الارتباط الدلالي. وإذا تحدثنا 
من الناحية النظرية نجد أن الفئتين الفرعيتين اللتين بينهما تضارب 
دلالي تُضئعف كل منهما الأخرى. وهذا يعني أنه بالنسبة إلى الفئات 
الجديدة ألتي يتم التوصل إليها فإن هذه الخصائص المحدّدة غير 
ذات صلة. ومع ذلكء فإذا لم تكن هناك علاقة بين الكلمات التي لا 
تتصاحب مع تلك الكلمات؛ التي تم تجميعها في تصنيف واحدء فإن 
الخصائص الدلالية التي تم ترميزها لتوضع في فئة فرعية أخرى 
ما زالت هناك إمكانية لتأثرها بتلك الفئات التي تم تكوينهاء ومن هنا 
يتضح أن قدرتها الوصفية تضعف. وحتى يمكننا حل هذه المشكلة 
فإن هناك حاجة إلى تصميم نموذج أكثر دقة. ولكن هذا النموذج 
يتطلب أن تشير المعاجم ضمن بياناتها إلى معلومات توضح 
الأسباب التي تمنع تصاحب كلمة كمية معينة مع مجمورعة من 
الأسماء. ومن الناحية المنهجية فإن هذا الوضع سوف يؤدي إلى 
عدم إمكانية استخدام البيانات التجريبية في إثبات الفروض موضع 
الجدل. ولذلك فقد كان من غير المجدي التعمق في هذا الاتجاه. 


)١(‏ دائمًا ما يكون هناك لبس في عملية مراقبة الكلمات الكمية. على 
سبيل المثال الكلمة الكمية '؟#4" قد تشير إلى سبع خصائص دلالية 
كما يلي: 

(أ) أشياء طويلة ورفيعة. 

(ب) حيوانات طويلة. 3 

(ج) أشياء طويلة فوق الأرض (نفق- قناة» وما إلى ذلك). 

(د) خطء بما في ذلك الخطوط التجريدية. 

(ه) قانون؛ لائحة» خير. 

(و) مصير. 

(ز) أغنية. وقد اعتبّر خوانغ جُو رن وفريقه البحثي في دراستهم كل 
كلمة كمية عبارة عن علامة وحيدة» ولم يتجهوا للتمييز بين 
خصائصها الدلالية المختلفة. وفائدة ذلك تكمن في سهولة المعالجة؛ 
ولكن من الممكن أن تَضَعَ الكلمات ذات الخصائص المختلفة في فئة 
واحدة؛ وذلك بسبب أن لها علامات شكلية متشابهة. ويستعين 
خوانغ جو رن وفريقه البحثي حاليًا بالمعلومات الواردة في معجم 
للكلمات الكمية ومعجم آخر لتصاحبات الكلمات الكمية مع الأسماء؛ 
للحصول على علاقات تصاحب أكثر. تفصيلا والوقوف على حصر 
لجميع المعاني لكل كلمة كمية. وعلى هذا الأساس فقد زادت 
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مجموعات الأسماء وفقا للحقول الدلالية إلى ما يزيد عن الضعف؛ 
أية قلت 15113 متسصوعة: وقد اذى ذلك :ل سكن سق 
التمييز الصحيح لمجموعات الأسماء التي تم تصنيفها بصورة 
خاطئة؛ بسبب نقص تفاصيل استخدام الكلمات الكمية في أثناء 
عملية التحليل الأولى. وسوف يؤدي ذلك إلى نتيجة أفضل بالنسبة 
إلى عمليات التصنيف الدلالي للأسماء. 
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الفصل البخامس 
استقراء إشكاليات التداخل المعجمي النحوي 


عن طريق استعراض التراكيب النحوية المختلفة ذات الصلة بمجموعة 
من الكلمات المترادفة؛ يمكننا أن نمَيّز أكثر الكلمات قَرئبًا من حيث المعنى؛ 
بالإضافة إلى أنه من خلال استعراض أنواع الكلمات المختلفة التي ترتبط 
بالتركيب. النحوي للمترادفات يمكننا أن نمَيّز بين التراكيب النحوية الأكثر 
تشابهًا. وهذا النوع من الدراسات يُطلق عليه اسم: دراسات التداخل المعجمي , 
النحوري (1055)ق0دقة لقع فتسسوعع-مء اردع رآ). 

وقد قام بيبر (2. :8156) بعمل استعراض للعلاقات النحوية المتعلقة 
بصفتين مترادفتين في المعنى بدرجة كبيرة وهما "11)41"» و"11دعدة"'؛ وذلك 
في محاولة للتمييز بين هاتين الصفتين مسن خلال أنماط الاس تخدام 
المختلفة[90]. وقد أَظهّرّت الدراسة أنه على الرغم من أن معنى هاتين 
الكلمتين هو 'صغير" بالإضافة إلى أنهما تستخدمان دائمًا في موقع النعت أو 
المسند في الجملة؛ فهناك اختلاف واضح بينهما في درجة تَحَيْرْ لكل منهما 
في مدى الاستخدام في هذين الموقعين النحويين» وهذا التحَيّز تجاه وظيفة 
نحوية ما دونا عن الأخرى له علاقة وثيقة بسياق الاستخدام. 

ففي اللغة الإنجليزية تقع النعوت الوصفية (0©5)ء 20[6‏ عال)ناطأم))ة) 
قبل الاسم في الجملة» وتستتخدم في تقديم معلومات تخص ذلك الاسم. على 
سبيل المثال: 
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.'' 12262 ع5 طعتامتتط) تسنط لعلاتام :000 ندعم انزع عل)كنا ع1" 


.''02قاعم 512311 2 )20 صطد*] أغدرظ" 

أما الصفات التي تأتي في موقع المسند فترد بعد الأسماء الموصولة 

(119ام0»)» ووظيفتها تقديم معلومات عن المسند إليه داخل الجملة» على سبيل 
المثال: 

.''123ووعل 5237 )غ*”طلآنامء عطاد رع1)كتا 725 عط دسرعط"13" 

"33117 600 عط 50110 )1 علصتط دده 1210" 


وتضم الذخيرة التي تم العمل عليها جزأين: الجزء الأول عبارة عن 
ذخيرة من نصوص حوارية يصل حجمها إلى خمسة ملايين كلمة تم 
اجتزاؤها من ذخيرة بي إن سي (©/87)» والجزء الثاني عبارة عن ذخيرة 
من نصوص علمية يصل حجمُها إلى خمسة ملايين كلمة تم اجتزاؤها من 
ذخيرة لونجمان- لانكاستر (1:325461-102512212). وقد تم عمل ترميز 
آلي لأنواع الكلمات داخل الذخيرة بأكملها؛ حيث أضيفت إلى كل كلمة 
معلومات تَبَيّن نوعها النحويء بما في ذلك علامات لتمييز النعوت الوص فية: 
ولأقعرت الخيرية. 

وقيما يلى تور الثمتّب المتوية الكاسب ةباين السطتين ااال 
و'55281[1" في حالات ورودهما كنعوت خبرية: 


306 


وتظهر نتيجة الإحصاء أن غالبية حالات ظهور هاتين الصفتين في 
الذخيرتين تتجه إلى موقع النعت في الجملة وليس موقع المسند. وفي الوقت 
نفسه أظهرت نتائج الإحصاء أن كلمة '!81دمه” ظهّرت بنسب أكبر بكثير من 
"11416" في موقع المسند؛ حيث كانت النسبة في النصوص الحوارية 9077, 
وفي النصوص العلمية وصلت إلى .901١‏ في حين أن نسبة ظهور كلمة 
"14416" في موقع النعت الخبري كانت قليلة بشكل ملحوظ (907 في 
النصوص الحوارية» وأقل من 96١‏ في النصوص العلمية). " 
بالإضافة إلى ذلك فقد قام بيبر بعمل استطلاع للعلاقات النحوية 
الخاصة بالفعلين المتردافين '«فعء”؛ و'8:4ه". ففي معظم الحالات كان من 
الممكن لهذين الفعلين أن يتبادلا المواقع؛ مثل: 
'"...0ع)؟ مان ععةم ع معالن" 
'" ...شققععط م26" عط «عاقة" 
ففي الحقيقة» إن هذين الفعلين متشابهان تمامًا في قدرتهما على تكوين 
علاقات نحوية؛ بمعنى أنهما متكافئان من حيث القدرة على الاقتران مع 
الكلمات الأخرى. فيمكن لكلا الفعلين أن يكون لهما صفة التعدي واللزوم في 
الوقت نفسه» على سبيل المثال: 
)١(‏ نمط التعدي: اقتران الفعل مباشرة بمفعول به مُكون من تعبيرة 
اسمية؛ مثل: 
'" [تصعاوزه هامنان عط مساكقعل] سسعء طنلع مهاد زعغط) صعط 1" 


(؟) نمط الزوم: لا يقترن بمفعول به مباشر؛ مثل: 
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رفاك 


.عع طالاتتداد 7١‏ عندم]عط غ9[ 11721ناد 3 عناوذا لإعغااعط 120 1" 


المفعول به بعد الفعل مباشرة. 


ففي حالة التعدي» إما أن يكون المفعول المباشر تعبيرة اسمية:؛ أو 
جملة فعلية مصدرية؛ مثل "جملة فرعية -60» أو جملة حالية 
فرعية -ومة"؛ حيث تأخذ كل من 'هفعءط” و'6:ه)ة" صيغتي التحول التاليتين: 

)١(‏ في نمط التعدي تحتل الجملة الحالية التي تحتوي "1079" مكان 


تحتوي "جما 6 


."0ع كقتتة 1 عنامطع ط[عستكدع1] سسعءط/لع):داد لفط بوعغط 1" 


)١(‏ في نمط التعدي تحتل الجملة الفعلية المصدرية "10" مكان المفعول 
به بعد الفعل مباشرة. وفيما يلي نعرض نتائج الدراسة الاستقرائية 
التي قام بها العالم بيبر (:816) على ذخيرة في مجالين لغويين 

كلمة)» والثاني نصوص 


مختلفين» الأول نصوص روائية (؟ مليون 
كلمة) وذلك للشيرف حلي حالات الازتباط النحري 


علمية (؟ مليون 


لهذين الفعلين. وقد ثم اجتزاء نصوص تلك الذخيرة بأكملها من 
ذخيرة لونجمان -لانكاستر 1ء122256- 1012851121212 


جدول :)3١-4(‏ نت 


نتيجة استقراء حالات الارتباط النحوي 
لفعلى "'صتعءط" و "رةه" في اللغة الإنجليزية 


00 


)/0000 
0/0000 


)/0 


تمظ التعدي 

-0غ+ جملة 
ل 

2/١ 


0/601 
اك 00 


000١ ه(*"١‎ 
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إجمالي 


تال 0 
001 


1 


ك١‎ 


000١ 
00١ 
000١ 


00١ 


وقد أظهرت الدراسة التي تَمِّتَ على تلك الذخيرة أن الفعلين قد ظهرا 
في جميع حالات الاقتران التي تم رصدها. إلا أنه قد تبين من المعلومات 
الإحصائية وجود طريقتين للاستخدام على درجة من الأهمية: 

)١(‏ حالات اللزوم للفعل "544:6" أكثر من مثيلاتها للفعل “مفع»5". 

)١(‏ يتجه الفعل '«فع56" إلى الاقتران مع المفعول به المُكوّن من الجملة 

الفعلية المصدرية '"الجملة الفرعية-60" أكثر من الفعل '4:هاه'. 

وقد أظهرت نتيجة الإحصاء أن نسبة من حالات ظهور الفمفل 
"5354" في النصوص الروائية كانت في الحالة اللازمة» أما في النصوص 
العلمية فقد وصلت إلى 05 وعلى العكس من ذلك» كانت حالات ظهور 
للنصوص العلمية. 
معناه التعبير عن بداية مرحلة معينة؛ مثل: 
.''لقتتعاهته مع" عطا صا ستدعة أتهاد 11123 دد5ع1"02م لامتاقد::0؟ لأمد عط ...'" 


'"...ضملأاءع لصا كه تهل طغخطعاء عط أنامطة 0عاتتقاد 1055 81008" 


."م متللهمعط عالع ععتليق عه علعع 8 م اباوطة كأترهاد مس111" 

غالبًا ما يكون المسند في هذا النوع من الجمل الذي تمثله الأمثلة 

السابقة مُعَبّرًا عن تصنيف اسميء بالإضافة إلى أن. الفعل في مثل هذه الجمل 

يتبعه حال. ففي ذخيرة النصوص الروائية كانت أغلبية حالات المسند إليه 

تُشير إلى إنسان أو جماد؛ وغالبًا ما يأتي بعد الفعل في تلك الجمل حال. على 
سييل المثال: 


319 


'' ...ا عع5 للنامء عاراللط عط ممصمل لع) ماد عط عق" 
'" ..متلهع2 0عا"تهاد قط ستلهعا عط ..." 
ومن هناء نجد أن هناك حاجة إلى مزيد من الدراسات عن الحال الذي 
يظهر في الجمل التي تحتوي أحد تلك الأفعمال اللازمة. كما أظهرت 
الإحصاءات أن الفعل "مفع56" في الذخيرتين غالبًا ما يأتي في حالة التعدي 
وذلك مقارنة بالفعل '5:ه". ففي النصوص الروائية» كانت نسبة 7/617 من 
حالات ظهور الفعل "ه7681 يقترن بها مفعول به عبارة عن صيغة المصدر 
المُكونة من.'10 + جملة صغرى"؛ أما في النصوص العلمية» فقد وصلت 
نسبة تلك الحالة إلى 96074 وعند عقد مقارنة نجد أن نسبة اقتران الفعفل 
581" بمفعول به مكون من "0غ + جملة صغرى" وصلت إلى 967١‏ (في 
النصوص الروائية) و5١96‏ (في النصوص العلمية). 
ونظرًا إلى دقة التمييز الآلي للمفعول به "40 + جملة صغرى ". فقد قام' 
العالم بيبر بعمل دراسة على مستوى أعلى عن هذا النمط من الاستخدام في 
ذخيرة من عشرة ملايين كلمة تم استخراجها من ذخيرة لونجمان لانكاستر 
1 101181182-12118506. ويظهر الجدول 85-5 نتيجة تلك الدراسة. وقد 
أكدت الدراسة دقة النتائج السابقة بمعنى أن هناك ارتباطًا وثيقا بين ظهور 
حالة التعدي للفعل "5ذاعء56" وبين استخدام المفعول به المكون من "20 + جملة 
صغرى '. وعلى الأخص في النصوص الروائية؛ حيث وصلت النسبة إلى 
أما الفعل '1هاة" فقد كانت حالات اقترانه مع أشكال التعدي الأخرى 
أكثر قوة. 
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جدول 8-4 نتيجة استقراء حالات الارتباط النحوي 


للفعلين "مزعء5؛ و"::و)5” في ذخيرة أكبر حجما 


ظ دي الأخر 
-0)+ التعدى الأخرى 
( 


وقد أوضح بيبر (81065) من خلال دراسته الاستقرائية على تلك 
الذخيرة اللغوية أنه على الرغم من إمكانية القول بوجود تشابه كامل بين 
الفعلين "«ذعء6”؛ و'5)3:4" من حيث المعنى وأنماط التصاحب النحويء فإن 
كلا منهما قد أظهر اختلافا عند الاستخدام الواقعي مع اختلاف المجال 
اللغوي. وهذا يوضح أنه لا يمكن الاعتماد على الحس اللغوي لدى الإنسسان 
في القطع (أو التوجيه) فيما يتعلق بأنماط الاستخدام؛ وأن الإنسان (يما في 
ذلك المتحدثين الأصليين للغة) لا يمكنه التنبؤ بوجود أنماط الاستخدام ذات 
الطبيعة المنظومية بصورة صحيحة» وأن أقصى ما يمكن التنبؤ به هو تحديد 
أي مجموعة من الأفعال ترتبط بأي نمط من أنماط الاقتران اللغوي. وعلى 
العكس من ذلك فقد أظهرت الدراسة الاستقرائية على الذخيرة أن الكلمات 
التي يبدو عليها من النظرة السطحية أنها مترادفة» إذا نظرنا إليها من ناحية 
أنماط الاقتران في أثناء الاستخدام اللغوي؛ فمن النادر التوصل إلى تطابق 
كامل بينها. 
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الفصل السادس 
الدراسات المتعلقة بتنوع المستوى اللغوي 
(21136100؟ “اعأوزعع) 


يتم تحديد المستويات اللغوية وفقا لظروف الاستخدام؛ مثل الغرض من 
الكلام» والمضمونء ومكان الاستخدام؛ والقدرة التواصلية؛ والأسلوب 
المستخدم. فبالنسبة إلى أي متحدث باللغة هناك أهمية قصوى لعملية استيعاب 
(أو القدرة على استخدام) المستويات اللغوية المختلفة. ولا نكون مبالغين إذا 
قلنا: إنه لا يوجد شخص يمكنه الاكتفاء باستخدام مستوى لغوي واحد؛ بمعنى 
أن الناس في أثناء اليوم الواحد قد يستخدمون اللغة نفسها في التحدث أو 
الكتابة بأساليب متنوعة تنتمي إلى مستويات لغوية مختلفة. ومن هنا فإن 
الشخص يحتاج إلى التمتع بالقدرة على الاختيار السليم (أو التحول) بين 
المستويات اللغوية المختلفة. ففي جميع مراحل اكتساب اللغة التي يمر بها 
الإنسان» تكون هناك أهمية قصوى لعملية اكتساب الخصائص اللغوية لكقل 
مستوى من مستويات الاستخدام اللغوي. 

فسواء كان الغرض من ذلك هو فهم مراحل اكتساب اللغفة في 
مستوياتها المختلفة» أو كان ذلك بغرض التوصل إلى وسائل فعّالة يستخدمها 
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مدرسو اللغات في تعليم اللغة باستخدام أسلوب المستويات اللغوية» فإن كل 
هذا يتطلب في البداية التغلب على مشكلات وصف الخصائص اللغوية 
لمستويات الاستخدام المختلفة للغة» بغرض التوصل إلى التمييز الصحيح لتلك 
المستويات. وعلى الرغم من أن الباحثين قد انتبهوا مبكرًا إلى أهمية هذا 
النوع من الوصف اللغويء فإن الواقع يؤكد أن هذا الهدف لا يمكن الوصول 
إليه إلا عند الاستعانة بمنهجيات الذخائر اللغوية في البحث اللغوي. ويرجع 
ذلك إلى أن التعمق في دراسة المستويات اللغوية المختلفة يحتاج إلى توافر 
العناصر الثلاثة التالية: 

)01( الاعتماد على كمية هائلة من النصوص كمواد أساسية للدراسة. 

)١(‏ التطرق إلى عدد كبير من الخصائص اللغوية. 

(؟) عمل مقارنات كمية بين المستويات اللغوية المختلفة. 

ومن الواضح أن جميع هذه العناصر تحتاج دائمًا إلى ذخائر لغوية 
كبيرة الحجم؛ بالإضافة إلى الحاجة إلى استخدام تقنيات التحليل المختلفة 
المتعلقة بهذه المهام. ففي البداية» يكون جمع عدد كبير من النصوص هو 
حجر الأساس لمثل هذه الدراسات؛ وذلك لأن النتائج البحثية التي يتم التوصل 
إليها مع نضوص قليلة تكون غير دقيقة بالقدر اللازم. 

هذا بالإضافة إلى أن دراسة المستويات اللغوية التي تعتمد على أسلوب 
المقارنة لا يمكن أن تقدم وصفا متعمقًا لتلك المستويات اعتمادًا على عدد قليل 
من الخصائص اللغوية. وعلى هذا الأساس أيضنًا لا يمكن أن نقدم وصفا 
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تلخيصيًا دقيقًا للخصائص اللغوية المتعلقة بكل مستوى. وفي الحقيقية:؛ لا 
يمكننا الاعتماد على خاصية لغوية بارزة في تمييز سمات مستوى لغوي 
: معين إلا إذا كان الأمر متعلقا باقتصار ظهور هذه الظاهرة في هذا المستوى 
دونًا عن غيره. وقد أثبت الواقع اللغوي أن العديد من المستويات اللغوية 
تتمتع بمجموعة من الخصائص اللغوية .المشتركة فيما بينها؛ مثل معدلات 
ظهور الأسماءء والضمائرء والأقعال» والصفات؛ وما إلى ذلك. ولا يمكن 
التمييز بين هذه المستويات إلا من خلال مقارنة القيم التفصيلية لمعدلات 
ظهور هذه الخصائص في مستوى معين مقارنة بباقي المستويات. وبعبارة 
أخرىء فإن الخصائص اللغوية المحورية التي تُظهرها الفروق المنظومية في 
أثناء الاستخدام اللغوي من شأنها أن تقدم أدلة يمكن الاعتماد عليها في التمييز 
بين المستويات اللغوية المختلفة. ْ 

وفي النهاية» لا بْدَ من الإقرار أن الدراسات القائمة على تحليل 
المستويات اللغوية تتطلب الاعتماد على أحد أساليب المنهج التقابلي؛ بمعنى 
أنها تحتاج إلى نقطة انطلاق (»هفاءوه0) لعمل المقابلة» حتى يمكن الحكم 
على عدد مرات ظهور خاصية (أو مجموعة من الخصائص) في أحد 
المستويات اللغوية. فعلى سبيل المثال» أظهرت دراسة استقرائية قام بها العالم 
بيبر (816) أن الجملة الموصولة تظهر في النصوص الإنجليزية بمعدل 
5 مرة كل ألف كلمة» الأمر الذي اعتبر معه أن ذلك أعلى معدل تواتر؛ 
لأن متوسط ظهور هذا النوع من الجمل يتراوح بين ٠١-١‏ مرات كل ألف 
كلمة» ويتحدد عدد مرات الظهور التفصيلي وفقًا للمستوى اللغوي. وعلى 
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العكس من ذلكء إذا وجدنا أن الأسماء تظهر بمعدل ٠٠١‏ مرة كل ألف كلمة 
في نوع معين من النصوصء وكان معدل ظهور الأسماء هو ٠١‏ مرة لكل 
١‏ ألف كلمة» فإن ذلك يُعتبر حالة نادرة. 


وفيما يلي.نقدم تعريفا للدراسة التي قام بها العالم بيبر (816) للتعرف 
على مقدار الاختلاف بين المستوى الشفهي والتحريري للغة[91]. ليس فقط 
لأن دراسة الفروق بين كل من المستوى التحريري والشفهي في اللغة مسن 
الموضوعات الساخنة دائمًا؛ التي يهتم بها العلماء في كل لغة» بل لأن تلك 
الدراسة ستتيح لنا فرصة التعرف على مجموعة الخصائص اللغوية التي 
استعان بها بيبر (:8156) للتمييز بين هذين المستويين اللغويين» بالإضافة إلى 
التعرف علسى منهجية التحايل متعدد الاتجاهات (لفدوتقمعساة 
كزوتزلهصة-:4انام) التي ابتكرها بيبر (8156) واستخدمها لأول مرة. 

في أثناء عمل دراسة تقابلية واسعة النطاق بين كل من المستوى 
التحريري والشفهي للغة» يكون أصعب ما في الأمر تحديد مجموعة 
الخصائص اللغوية التي سيتم على أساسها عقد المقارنة. فعلى سبيل المثال» 
عن طريق الاستقراء يمكننا التوصل إلى أن هناك فرقا كبيرا بين عدد مرات 
ظهور الجملة الموصولة في كل من النصوص العلمية والنصوص الحوارية 
في اللغة الإنجليزية. وعلى العكس من ذلك؛ فإن استخدام صيغة الفمل 
الماضي في هذين المجالين قليلة: ظهرت صيغة الفعل الماضي في النصوص : 
العلمية بمعدل 7١‏ مرة كل ألف كلمة» وفي النصوص الحوارية ظهرت ه” 
مرة. أما في النصوص ل ظاعره مر حك مد م 
كل ألف كلمة. 
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ووفقا لهذا السبب؛ فإنه من غير الممكن الاعتماد على التوزيع النسبي 
لخاصية لغوية معينة في التمييز بين المستويات اللغوية المختلفة. ففي' 
الحقيقة» أن الخصائص اللغوية التي يمكن التطرق إليها كثيرة جدّاء فضلاً عن 
ضعوبة التكهن بأي منها يلعب دورً! مهما في عملية تحديد خصائص 
المستويات اللغوية موضع الدراسة. وفي الحقيقة أن الدراسات العلمية 
أظهرت أن الخصائص التي تظهر السمات اللغوية للنصوص الحوارية 
تشمل: الجمل المتقطعة (5660عممع58)» والتركيب المزجي (د0خ4اء2همء)» 
وضمير المخاطب (ناه9)؛ والجمل الاعتراضية. (ده/ا 002)؛ والأفعال غير 
المتصرفة (0غ 6اقط 50٠»‏ 2660 :0غ 16طه »ط)» بالإضافة إلى الجملة الفرعية 
التي تحتوي المكمل -1//7. وما إلى ذلك. وعلى العكس من ذلكء؛ نجد أن 
الخصائص التي تظهر السمات اللغوية للنصوص العلمية تشمل: أنواعًا معينة 
من الكلمات تَظهّر بصورة مكثفة داخل تلك النصوص؛ مثشل الأسماءء: 
والصفات النعتية» وأسماء الأشياء»؛ وغير ذلك من الكلمات ذات الطابع 
الخاصء بالإضافة إلى صيغ المبني للمجهول من الأفعال والأبنية ذات 
الطبيعة الخاصة» مثل (594) 16طأوومم 15 غ1)» وما إلى ذلك. 

وعلى الرغم من أن علماء اللغة قد اتفقوا على أن هناك عددًا من 
الأنماط اللغوية تظهر معًا في مستويات لغوية محددة؛ فإنه من الصعب 
التوصل إلى إحصاء كمي لعدد مرات ظهور هذه الأنماط اللغوية. وفي الحقيقة 
أن تمييز مجموعات الخصائص اللغوية التي تتصاحب معًا في المستويات 
اللغوية المختلفة لا يمكن أن يتحقق بشكل واقعي إلا من خلال استخدام 
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منهجيات الذخائر اللغوية. وقد أثبتت منهجية التحليل متعدد الاتجاهات التي 
طرحها العالم بيبر في ثمانينيات القرن العشرين قد أثبتت أن منهجية الذخائر 
اللغوية هي الأساس الذي يمكن من خلاله الانطلاق لحل هذه المشكلة. 

إن الأساس الذي ينطلق منه التحليل متعندد الاتجاهمات لوصف 
الاختلافات بين المستويات اللغوية المختلفة يعتمد على ذخيرة شفهية وأخرى 
تحريرية تضم عينات تغطي نطاقا واسعًا لكل مستوى لغويء ومن 
الضروري أن تَعَبّر تلك الذخيرة بصورة كاملة عن الأنماط اللغوية الأساسية 
التي تتصاحب معًا في إحدى اللغات (مثل اللغة الإنجليزية على سبيل 
المثال). وقد استعان التحليل متعدد الاتجاهات الذي أجري على اللغة 
الإنجليزية في ثمانينيات القرن الماضي بذخيرة عامة» تتكون من عدد 5/8١‏ 
نصنًا يحتوي 450٠6٠‏ كلمة. من بينها عدد "4٠‏ نصنًا تم اختيارها من ذخيرة 
لوب؛ بحيث غطت تلك النصوص إلى حد كبير النصوص التحريرية من 
الذخيرة» مثل النصوص العلمية» وافتتاحيات الصحفء. والروايات وما إلى 
ذلك؛ أما النصوص الباقية؛ التي وصل عددها ١5١‏ نصنًا فقد بَم اختيارها من 
ذخيرة لندن- لوند (0سدارآ1-ه00هم.1) الشفهية» وتضم الحوارات المباشرة؛ 
والمحاضرات العلنية»؛ ونصوص الخطب الشفهية» وما إلى ذلك. 

إن أول خطوة من خطوات التحليل متعدد الاتجامات هي تحديد 
مجموعة الخصائص اللغوية التي سيتم دراستها. والغرض من هذه الخطوة 
هو تجميع الخصائص اللغوية على نطاق واسع؛ حيث يمكن من خلال تلك 
الخصائص اللغوية تقديم شرح يوضح الوظائف اللغوية لتلك النصوص. وقد 
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قدم بيبر قائمة بعدد 11 خاصية لغوية من خلال التحليل متعدد الاتجامات 
للغة الإنجليزية» ويمكن ضمها في ستة عشر نموذجًا نحويًا: 

)١(‏ علامة الزمن والحالة. 

: الحال المعبر عن المكان والزمان.‎ )١( 

(؟) الضمير المعبر عن الاسم؛ والضمير المعبر عن الفعل (ط؟-صمهم). 

(4) الاستفهام. ْ 

(5) الصيغ الاسمية. 

(1) المبنى للمجهول. 

(1) صيغة الحالة. 

(4) خصائص الإضافة. 

(19) تعبيرات الجار والمجرورء والصفاتء والظروف. 

)٠١(‏ المفردات الخاصة. 

)١١(‏ الأنواع النحوية للمفردات. 

)1١(‏ الأفعال المتصرفة.. 

(16) الأفعال التي لها سمات خاصة. : 

)١14(‏ التراكيب المختصرة؛ التي يَنَثْر استخدامها. 

(15) العطف. 

)١15(‏ النفي. 
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والخطوة التالية التي اتبعها بيبر هي تصميم برمجية حاسوبية لتمييز 
كل خاصية لغوية داخل النص وإحصائها. مع مراعاة أن هناك عددا من 
الخواص المركبة تحتاج إلى أسلوب تمييز يعتمد على التكامل بين الآلة 
والإنسان. هذا إلى جائب أن جميع الخصائص التي تتوصل الآلة إلى تمييزها 
يتم مراجعتها ومطابقتها من خلال التدخل البشري؛ وذلك لضمان دقة التمييز. 

رظاح كما ديت كيه الجاناك التي يوكلا ايها فريق التعارا] من 
خلال عمليات الاستقراء التي تمت على الذخيرة الإنجليزية كبيرة بصورة 
تلفت النظلن قال كيه مكوكة مرخ "ضنذ 21 نصةانتوكق قسن عم كانه أن 
. يُخرج نتائج إحصائية عن معدلات تكرار 07" خاصية لغوية. وحتى يمكن 
التوصل إلى مجموعة الخصائص اللغوية التي تشترك في الظهور داخل 
نصء اعتمد بيبر على أسلوب إحصائي أطلق عليه اسم تحليل العوامل" 
(:8640؟ 1(515هة). وهو تقنية إحصائية تعتمد على العلاقات التبادلية 
(اهده؛هاء+ه) الغرض منها تمييز مجموعة المتغيرات المتشابهة من حيث 
نسب التوزيع داخل النص. أي أن أسلوب تحليل العوامل يعني التوصل إلى 
مجموعة الخصائص اللغوية التي تتجه لأن تتصاحب معًا داخل النص. 

وقد أطلق بيبر لفظ "مؤشر” على مجموعة الخصائص التي تشترك في 
الظهور معا؛ التي تعبر عن تغير مجال النص. على سبيل المثال» قد تكون 
مجموعة الخصائص المشتركة مُكوّنة من ضمير المتكلم» وضمير المخاطب». 
. وأدوات الاستفهام التي تيدأ ب -88؛ وقد تكون مجموعة خصائص أخرى 
مكونة من الأسماء؛ وتعبيرات الجار والمجرورء والصفات النعتية وما إلى 
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ذلك. ومن خلال الخصائص اللغوية التي يتم الحصول عليها من أسلوب 
تحليل العوامل يمكن التعبير عن توزيع مجموعة الحقائق اللغوية المرتبطة 
بكل خاصية في كل نوع من أنواع النصوص. على سبيل المثال» عندما يضم 
نص معين كمية كبيرة من الأسماء؛ فمن المعروف أن هذا الوضع يصاحبه 
ظهور كمية كبيرة من تعبيرات الجار والمجرور والتعبيرات الوصفية» وعلى. 
العكس من ذلك إذا كانت الأسماء في نص معين قليلة العددء فإن ذلك سيؤدي 
إلى قلة ظهور تعبيرات الجار والمجرور والتعبيرات الوصفية. 


ونظر! إلى أن تلانّم ظهور الخصائص اللغوية يعكس السمات 
المشتركة بين النصوص الثي تنتمي إلى حقل لغوي واحدء فإنه بعد اكتشاف 
الخصائص اللغوية التي تَحَدّد 'مؤشر” الحقل اللغوي؛ يمكننا تقديم شرح 
للوظيفة اللغوية التي يمثلها هذا المؤشر؛ وذلك من خلال عناصر ثلاثة هي 
المشهد الذي يعبر عنه النص؛ ووظيفة النص من الناحية الاجتماعية 
والمعرفية. على سبيل المثالء ظهور ضمير المتكلم وضمير المخاطب وجمل 
الاستفهام المباشر والأمر بصورة كبيرة داخل النصوص الحوارية من شأنه 
أن يقدم شرحًا لخاصية التواصل التي يتسم بها هذا:النوع من النصوص؛ 
وذلك لأن استخدام جمل الاستفهام المباشر وجمل الأمر تتطلب وجود شخص 
مستمع مطلوب منه التجاوب مع المتحدث؛ أما ضميري المتكلم والمخاطب 
فيشير كل منهما إلى المتحدث والمستمع على التوالي. وعلى المنوال نفسهء 
فإن أسلوب القصر وبدايات الحديث الخاطئة (5)8:5 48156) والكلمات 
الحقيقية المشيرة إلى أشياء عامة (مثل عهفط) جميعها لها علاقة بالعوامل 
التي َُيّد الحوار وقت وقوعه. 
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وقد تمكن بيبر من خلال التحليل متعدد الاتجاهات الذي أجراه على 
ذخيرتين شفهية وتحريرية للغة الإنجليزية من تمييز خمسة مؤشرات 
للتحول النصي. . 

وفيما يلي نورد مجموعة الخصائص اللغوية التي تتلازم مع المؤشر 
الأول؛ حيث إن كل مؤشر يتكون من خاصيتين لغويتين تتلازمان معًا في 
الظهور؛ بمعنى أن ظهور إحدى هاتين الخاصيتين بكثافة داخل النص 
يستدعي ظهور الخاصية الأخرى بوضوح.: والعكس ص حيح. وهاتان 
الخاصيتان المتكاملتان يمكن الإشارة إليهما ب "الأصل"” و"الفرع". ففي 
المؤشر الأول نجد أن مجموعة الخصائص اللغوية الأصل هي: وجود أفعال 
الشعور مثل 101" و"76861؛ وحُذفت كلمة "031" من الجمل الفرعية؛ 
والقصرء وصيغة الفعل المضارع؛ وضمير المخاطب. أما مجموعة 
الخصائص الفرعية فتشمل: وجود الأسماءء والكلمات الطويلة:» وتعبيرات 
الجار والمجرورء وصيغة المقارنة» والصنفات النعتية. 


احنف 4ع | 40٠٠١‏ |الكمات لطوقة ‏ |84.0ه- | 
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الأفعال المعبرة عن الإمكانية 


الجملة القرعية -8:« 


حروف الجر التي تقع في آخر 
الجملة 
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وأمام كل خاصية نلاحظ وجود رقم؛ هذا الرقم يعبر عن وزن 
(ع102018) هذه الخاصية بالنسبة إلى المؤشر الأول: وهو رقم يشير إلى قوة 
الارتباط (منطوهه26اء: عط 04 طغعمء؟) بين المؤشر الأول ووجود هذه 
الخاصية. ومن هذاء يمكننا أن نلاحظ درجة تمثيل اهمع مع سوعم) هذه 
الخاصية اللغوية في هذا المؤشر. ويتراوح وزن الخاصية من ١‏ إلى .١-‏ 
فكلما كبرت القيمة المطلقة للوزن ارتفعت قيمة تمثيله داخل المؤشرء وعندما 
تصل قيمة الوزن إلى رقم واحد صحيح فإن هذا يعني الارتباط الكامل. ويبدو 
من الجدول أن أول خاصية في: المؤشر الأول هي ارتباط ظهور أفعال 
الشعور مع الأسماء (حيث كان وزن كل منهما "5,: و-80,١‏ على 
التوالي)» وهذا يمثل أقوى ارتباط داخل نطاق هذا المؤشر. وبالمقارنة نجد 
أن الأفعال المعبرة عن الإمكانية (0,50) أكثر ارتباطًا مع الصفات النعتية 
(-40,.). ا 

فكل خاصية لغوية لها وزنها الممثل لها داخل المؤشر. ونظر! إلى أن 
الخصائص التي تتمتع بأوزان عالية هي تلك الخصائص التي تعبر عن 
المؤشر بصورة أكبر من غيرها من الخصائصء لذلك فإن هذا الأمر يُعَوَلَ 
عليه كثيرًا في وضع تفسير لوظائف المستوى اللغوي الذي يعبر عنه ذلك 
المؤشر. فغالبًا عندما تزيد القيمة المطلقة لخاصية من الخواص عن ٠,٠١‏ 
فإن هذه الخاصية يمكنها أن ينظر إليها بعين الاعتبار في عملية التفسير. 

وعلى أساس قيمة وزن الخاصية يمكن عمل إحصاء كمي للخصائص 
التي تزيد قيمتها المطلقة عن ٠.٠‏ حتى يمكن حساب القيمة التي يحصل 
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عليها هذا النص في أحد المؤشرات؛ وهذا ما يطلق عليه اختصارا درجة 
المؤشر (ع"مء؟ صمغصع طم ذل). وعلى مستوى أعلى» يمكن عمل إحصاء كمي 
لإجمالي النصوص التي يتكون منها مستوى معين داخل الذخيرة بأكملهاء 
ومن هذا الإحصاء يمكننا التوصل إلى المتوسط الحسابي لقيم المؤشر في كل 
مستوى لغوي. وعلى هذا الأساس يمكننا وصف الخصائص اللغوية لأي حقل 
من حقول اللغة» الأمر الذي يمكن معه عقد مقارنة بين أي مستويين لغويين» 
بالإضافة إلى عمل تحليل كامل لوظائف كل مؤشر. 


2014 


الباب الخامس 
تطبيقات منهجية الذخائر اللغوية 
في عدم اللغة الحاسوبي 
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لم يكن على سبيل الصدفة الظهور المفاجئ والسريع لمنهجية الذخائر 
اللغوية ونماذج التحليل الإحصائي للظواهر اللغوية وتحولهما لتيار أساسي لا 
يُستَغنى عنه في مجال الدراسات المتعلقة بمعالجة اللغات الطبيعية (5آ/ة) 
وعلم اللغة الحاسوبي اللذين ظهرا مع تسعينيات القرن العشرين. ونحن على 
ثقة كاملة أن القارئ سوف يلمّس من الأمثلة التي سوف نسوقها في 
الصفحات التالية مدى تَمَيّز هذه المنهجية. 
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الفصل الأول 
الدراسات المتعلقة بإزالة اللبس 
في نمييز حدود الكلمات داخل النصوص الصينية 


يُعتبر اللبس في وضع حدود للكلمات الصينية والكلمات التي لم يتم 
تسجيلها أهم إشكاليتين تؤثران في مستوى دقة نتائج برمجيات التمييز الآلي 
لحدود الكلمات الصينية. وبصورة عامة» يمكننا تقسيم إشكاليات اللبس في 
تمييز حدود الكلمات الصينية إلى إشكاليتين فرعيتين: الأولى هي مشكلة 
اللبس بسبب التداخل في عملية تقسيم سلاسل الرموز؛ والثانية مشكلة اللبس 
بسبب التعدد الدلالي لبعض الرموز الصينية. وعند التطبيق الواقعي لعملية 
تمييز حدود الكلمات الصينية نجد أن غالبية حالات اللبس ترجع إلى اللبس 
الناتج عن التداخل في عملية تقسيم سلاسل الرموز. طبقا لتقرير التقييم الذي 
تم على برمجية التمييز الآلي الجزئي لحدود الكلمات الصينية الذي تم 
تصميمه عام ١145‏ في إطار المشروع الصيني القومي رقم 878 لإنشاء 
الحواسيب الذكيةا"*أء فإن دقة تمييز الكلمات الصينية باتباع منهجية إزالة 
اللبس الناتج عن التداخل في التمييز قد وصلت إلى 9018: أما درجة الدقة 
في تمييز اللبس الناتج عن التوليد فقد وصلت إلى 9654: وتشير تلك الأرقام إلى 
أن الدراسات المتعلقة بمشكلة تمييز اللبس في أثناء.عمليات تمييز حدود الكلمات 
الصينية ستظل المحور. الرئيس في حقل معالجة المعلومات باللغة الصينية. 
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وفيما يلي نعرض الدراسات المتعلقة بتمييز حدود الكلمات من خلال 
إزالة اللبس الناتج عن التداخل في التمييزء التي تمت في كل من جامعة شان 
شي وجامعة تشين خوا على ذخيرة واسعة النطاق. وحتى يمكننا التعريف 
بتلك الدراسات؛ فمن الضروري البدء بشرح بعض المصطلحات الأساسية 
المتعلقة بهذا المجال في اللغة الصينية» ولمزيد من المعلومات عن تعريف 
تلك المصطلحاتء انظر المرجع رقدا""!. 

سلسلة الكلمات التي تحتاج إلى فصل تداخل الحدود بين عناصرها 
يُطلق عليها اختصارًا اسم (سلسلة متداخلة): على فرض أن لدينا سلسلة 
كلامية مُكُونّة من الكلمات » و8ء و©» وأن كلاً من تلك الكلمات يتكون من 
رمز أو عدة رموز. فإذا كانت الكلمات لم؛» و48» و©8؛, و© جميعها من 
الكلمات الموجودة في قائمة الكلمات الصينية المتعارف عليهاء فإن السلسلة 
الكلامية 486 يُطلق عليها اسم سلسلة كلامية تحتاج إلى إزالة اللسبس من 
خلال فصل تداخل الحدود. وبطبيعة الأحوال فإن هذا النوع من السلاسل . 
المتداخلة يحتوي حالات أكثر تعقيدًا من ذلك المثال» كما يلي: إذا كانت عملية 
تمييز حدود الكلمات تعتمد فقط على قائمة الكلمات المتعارف عليها في اللغة 
الصينية ولا يتداخل معها إشكاليات أخرى كالإشكاليات النحوية والدلالية» فإن 
نتيجة التمييز ستكون مناسبة سواء كان تقطيع الرسالة الكلامية إلى 6/85 أو 
كان 80/4. على سبيل المثال سلسلة الرموز "1783" يمكن تقطيعها إلى 
"37/#رئا" 'يُستخدم في..."» وكذلك يمكن التقطيع إلى "-27/37" 'ينبغي أن 
يُستخدم في...'؛ والسلسلة "39 [5" يمكن تقطيعها إلى "ا //لاا]5" 'يمكن من 
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أجل...'. وإلى "[5/ 19" "إلا أنه يعتقد أن...'. ولذلك نطلق على '82(832'» 
أو"0 ]ا [5" اسم سلسلة متداخلة. : 

العناصر المتداخلة: الكلمات التي تتداخل في التمييز داخل السلسلة 
الكلامية يُطلق عليها اسم عناصر متداخلة. على سبيل المشالء الكلمتان 
"ا" و"83' في السلسلة "85/83" يطلق عليهما عنصران متداخلان. 

طول سلسلة التداخل: عدد العناصر المتداخلة داخل السلسلة الكلامية 
يُطلّق عليه طول سلسلة التداخل. وعلى ذلك؛ فإن طول سلسلة التداخل في 
كل من السلسلتين الكلاميتين "-2(83". و"511130" هو اثنان. ويتضح من ' 
ذلك أن طول سلسلة التداخل ينبغي أن يحتوي عنصرين متداخلين على أقل 
تقديرت ومجارة أكون فلن اقل قدن يمكن [ن ككفزيةا أبنة ماله كلاشية 
متداخلة هو عنصران فة فقط. وبالمنطق نفسه» فإن أية سلسلة متداخلة لا يمكن 
أن يقل العدد الكلي للرموز الصينية المُكوتة لها عن ثلاثة عناصر. 

محور التداخل: الجزء الذي يتكرر في الكلمتين اللتين تنتّجان من عملية .. 
التمييز يُطْلَق عليه اسم محود التداخل. وعدد الرموز المُكونة لهذا الجزء 
يُطلّق عليه طول محور التداخل. فمحور التداخل في السلسلة "87183" هو 
8" وطول هذا المحور رمز واحد. 

السلسلة ذات الطول الأكبر في التداخل: على فرض أن 5 سلسلة 
كلامية معينة» وفي داخل هذه السلسلة يوجد سلسلة فرعية عبارة عن سلسلة 


متداخلة هي (3, فإذا كانت 5 لا تحتوي عنصرا! يتداخل مع ا فإن 3١‏ 


401 


يُطلق عليها اسم السلسلة ذات الطول الأكبر في التداخل. والمثال التالي عبارة 
عن سلسلة متداخلة أكثر تعقيدًا: 


5 للا :20:32 85 2 


هذه السلسلة تحتوي ثلاثة عناصر متداخلة: العنصر الأول هو 
"22840" 'مُعْظم”. والثاني هو "2235" 'مستقل", والثالث هو"#ءءالا1دةة' 
'منتجات'يدوية الصنع". فمحور العنصرين المتداخلين الأولين هو الرمز 
"240" أما محور العنصرين الآخرين فهو الرمز "3" وطول محور التداخل 
هو رمز واحدء وطول سلسلة التداخل هو ثلاثة ردموز صينية. والجدير 
بالملاحظة أن الكلمتين "الا-1 5" 'صناعة يدوية"؛ و"#مالا1" 'مصنوعات" 
في هذه السلسلة كلمتان متداخلتان. ولكن نظرًا إلى كون هاتين الكلمتين 
متضمّنتين في إطار كلمة أكبر هي كلمة "5,مالا1 35" 'مصنوعات يدوية"”. 
فإن كلا من "/لا-361" 'صناعة يدوية"؛ و"#ءالا 1" 'مصنوعات" لا يمكن 
اعتبارهما عناصر متداخلة. 

والهدف من تمييز أكبر طول لسلسلة التداخل هو وضع حدود فاصلة 
لهذا النوع من السلاسل؛ حيث إن السلسلة ذات الطول الأكبر لا يمكن لها أن 
تحتوي عناصر تداخل مع أية سلسلة رموز في الفراغ النصي المحيط بها. 
وهذا الوضع يُمكنَنا من اجتزاء هذه السلسلة الكلامية ومعالجتها بصورة 
منفردة. ففي الجملة التالية على سبيل المثال: 
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"القوانين الاقتصادية تفرض قيودًا كبيرة على نطاق واسع"؛ فنجد أن 
"28229" 'تقريب بصورة كبيرة"» و"[784220952" "قيود كبيرة" سلسلتان 
متداخلتان» إلا أن الأولى مُتضْمّنة في الثانية. ولذلك فإن السلسلة "15225" 
ليست هي السلسلة ذات الطول الأكبر في هذا المثال. ولا يبقى في هذا المثال 
إلا السلسلة "3822453452" وهي التي لا تدخل في إطار سلسلة أخرى داخل 
هذا المثال» وهي تُعْتَبر بذلك السلسلة ذات الطول الأكبر في المثال. 

وفي أثناء استخراج السلاسل المتداخلة أو السلاسل ذات الطول الأكبر 
في التداخل من الذخائر اللغوية يتم استخدام المعادلتين الإحصائيتين "نسبة 
الشكل” (معدل التكرار الثابت)» و"النسبة العددية" (معدل التكرار المتغير) 
على التوالي وتعريف هاتين المعادلتين كما يلي: 

النسبة النوعيلل: هي النسبة المئوية لعدد مرات تكرار نوع معين: 
من أنواع السلاسل ذات الطول الأكبر في التداخل بالنسبة إلى العدد الكلي 
لمرات تكرار جميع الأنواع؛ وتحسب بالمعادلة التالية: 


عدد مرات تكرار نوع من أنواع السلاسل 
ذات الطول الأكبر في التداخل 
العدد الإجمالي لأنواع السلاسل ذات الطول 
الأكبر فى التداخل 
(معادلة ه-١)‏ 


النسبة النوعية 


0 
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النسبة العددية: هي النسبة المئوية لعدد مرات ظهور نوع معين من 
أنواع السلاسل ذات الطول الأكبر في التداخل داخل الذخيرة بالنسبة إلى 
العدد الكلي لمرات ظهور جميع أنواع السلاسل ذات الطول الأكبر في 
التداخل. وبَّحْسَب بالمعادلة التالية: 


عدد مرات ظهور نوع من أنواع السلاسل ذات الطول 
]| النسبة العددية (940) - الأكبر في التداخل »0/0 


العدد الكلي لمرات ظهور جميع أنواع السلاسل ذات الطول 


أولاً: دراسة جامعة شان شي 

قام كل من العالمّين جنغ جيا خنغ» وليو كاي يينغ من جامعة شان شي 
الصينية بعمل دراسة مسحية عن سلاسل الرموز المتداخلة في ذخيرة لغوية 
مُكَوّنة من مليون وثمائمائة ألف كلمة» ولكنهما لم يُمَيْرَا في دراستهما بين 
السلاسل المتداخلة والسلاسل ذات الطول الأكبر في التداخل!*". كما أنهما' 
قَتّما تعريفا مختلفا لطول سلسلة التداخلء ولتسهيل عملية الشرح سوف نعتمد 
على مجموعة المصطلحات التي سبق ذكرها وتعريفها في عرض نتيجة 
لكين ش 
ومن خلال الدراسة المسحية التي تمت على الذخيرة اللغوية نجح جنغ 
جيا خنغ» وليو كاي يينغ في استخراج عدد 16٠٠‏ حالة لسلاسل رموز 


متداخلة؛ وقاما ببناء بنك لهذا النوع من سلاسل الرموز. وعلى أساس ما هو 
متعارف عليه في المعاجم الصينية أو نتائج الإحصاءات التي تمت على 
ذخائر لغوية من أن حوالي 707١‏ من الكلمات الصينية تتكون من رمزين: 
فقد تم التركيز على أن تنحصر وحدة تقطيع السلاسل الرمزية فبي رمزين 
فقط. وقد ورد في تقريرهما أنه باعتبار كل رمزين معيارًا لتمييز الكلمات» 
فقد تم استخراج عدد 871 سلسلة متداخلة من بين ال 10٠0٠‏ حالة لسلاسل 
الرموز المتداخلة» أي (9684,7). ويوضح الجدول ١-5‏ نتيجة التوزيع 
الإحصائي داخل هذا العدد من السلاسل وفقا لطول سلسكة التداخل. 

جدول (3-5): النتيجة الإحصائية لسلاسل: الرموز المتداخلة وفقَا 
أطوق سليظة القدافل 


,به ه90 51/01١‏ 


١‏ ا / 9/0 ١لا‏ | ,م9 

5 03" 1 ون 90 

١1 1 5 1‏ م0 
َ يححيفض 0 | 


من خلال البيانات الإحصائية السابقة» يمكننا ملاحظة أن مجموع عدد 
السلاسل التي لها طول تداخل وحدتين وثلاث وحدات بلغ نسبة 997,١‏ من 
العدد الإجمالي لسلاسل التداخل؛ وأن عدد مرات ظهور هذين النوعين يصل 
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إلى 9097.7 ومن هناء إذا تم التوصل إلى حل مشكلة تمييز السلاسل التي 
يصل طول تداخلها إلى وحدتين أو ثلاث وحداتء فإن ذلك من شأنه أن يرفع 
من نسبة الدقة في عمليات تمييز حدود الكلمات الصينية بصفة عامة. كما قام 
كل من جنغ وليو بعمل دراسة مَسحيّة عن نتائج تمييز حدود الكلمات الصينية 
باعتبار الأطوال المختلفة لسلاسل التداخل, وطرَحًا استراتيجيات التمييز الآلي 
القائمة على هذه الأنواع. إلا أن التقرير العلمي لدراستهما ما زال منحصرا في 
إزالة التداخل القائم على اعتبار كل رمزين معيار! لتمييز الكلمات. 
)١(‏ انحصرت نتائج تمييز السلسلة 886 باعتبار طول سلسلة التداخل 
وحدتين في أربع حالات كما يلي: 
أ- نتيجة التمييز هي ©4/8 كما في المثال "5 3 للا" الذي يتم تمييزه . 
إلى "ت 8/نلا" 'يُظهر نفسه". 1 
ب- نتيجة التمييز هي 48/0 كما في المشال “3]7ة/' الذي يتم ظ 
تمييزه إلى "81131/ ع" 'يظهر في". 
ج- نتيجة التمييز هي ©88, كما في المثال "#8675" "أمسراض 
د- عدم الاستقرار على طريقة للتقطيع. 
ويوضح الجدول 5-5 النتيجة الإحصائية التي تمت على ذخيرة 


للنصوص الإخبارية حجمها مليون وثمانمائة كلمة. 
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_ العد 
1 0016 فر امن 1 مه" 0 
0 


6م 1 م١‏ 00 ه.وهه 1 خض 

5 0118 ا 7 000 ا 5256 1 97/0001 
غير مُحَدّد_ | 00 9/0 0100 9700 
الإجمالي ‏ | 2 امن 5 علمه: ١‏ 8 ا000 5 


ويتبين من نتيجة الإحصاء السابقة أن نسبة التمييز للسلاسل المتداخلة 
على النمطين :860/ى؛ و431/0 تصل إلى 984,5: وأن نسبة عدد مرات 
الظهور وصلت إلى 7680,6. ومن بين هذه النسبة نجد أن تمييز نمط 
الاقتران 48/0 من خلال التصاحبات الأكبر في اتجاه القراءة من اليسار 
إلى اليمين) قد حقق نتائج تمييز صحيحة؛ وعلى هذا فقد تركزت صعوبة 
التمييز عندما يكون طول سلسلة التداخل وحدتين في نمط السلاسل المتداخلة 
©5/ة. 
(1) عند تمييز سلسلة التداخل 483617 باعتبار أن طول التداخل ثلاث 
وحدات» انحمصرت نتائج التقطيع في النقاط التي يوضحها 
الجدول التالي: 
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جدول (ه-”): نتيجة تقطيع سلاسل التداخل باعتبار 
طول التداخل ثلاث وحدات 


0/00 
مناقظم 049 | ",00 

0 
١0‏ |0 
معقم 5 ١م00‏ 0 0 
غير مُحَدّد 11 9/00 1١١‏ 9/001 
| الإجمالي 2409 9/00 515ظ, واه 


ويُظهر الجدول الإحصائي السابق أن نمط التقطيع 48/617 سواء على 
مستوى النسبة النوعية أو على مستوى النسبة العددية يحتل نسبة 9601/8 
تقريبًا من بين أنماط التقطيع الأخرىء» مثل سلسلة التداخل "52122 ". 
كانت نتيجة التقطيع الصحيحة لها هي "733/52 'تم بالفعل". لذلك» فقد 
اتجهت منهجية تقطيع سلاسل التداخل بطريقة ثلاثية إلى أن تكون نتيجة 
التقطيع على النمط 413/67. 
() عند تمييز سلسلة التداخل 486117 باعتبار أن طول التداخل أربع 
وحدات» لوحظ أن صعوبة التقطيع تتركز في الرموز الثلاثة 
الأولى. على سبيل المثال: السلسلة "87148] اروك" لايمكن 
الاستمرار في تمييز كلماتها بصورة صحيحة إلى مجموعة الكلمات 


008 


"251-15" إلا بعد النهاح في تمييز السلسلة الداخلية 
"5/29" على أنها مُكوتّة من الكلمات "9 /ئتا/7:18". 
(4) عند تمييز سلسلة التداخل 880111 باعتبار أن طول التداخل 
خمس وحداتء كانت نتيجة التمييز الصحيحة هي "48/010/155". 
مثل "#1754 48 :/" التي تم تمييزها إلى مجموعة الكلمات 
"1 /رث “*ر/[8] تع" "جودة المنتجات الصينية". 
وقد اكتشف كل من جنغء وليو من خلال العمليات الإحصائية التي 
تمت على الذخيرة أنه من خلال تحليل عدد اال 4545 سلسلة متداخلة 
باعتبار طول التداخل وحدتين» هناك ثماني حالات اختلفت نتيجة تمييزها مع 
اختلاف السياق؛ مثل: 

السلسلة "16:.لل": يتم تمييزها إلى "!(/ئ©١!:”‏ كما في السياق 
الت 

م بك زد /زاقة/عنك [١‏ /لل/ "انتقلت الأخوات الثلاث من المدرسة الايتدائية 

إلى المدرسة الإعدادية"» ويتم تمييزها إلى "1:.ا/ع" كما في السياق 
“11 / الغ .ل/لة" 'تعلمت العروض المسرحية منذ صغرها". 

السلسلة "2/1]:29": يتم تمييزها إلى '/48:]ة//للا' كما في السياق 
"435ل / ءعاذ/ و /#/23:/30/ .218" "إنشاء قوة عسكرية مركزها 
حلف الناتو"» ويتم تمييزها أيضنا إلى '29/ة لا" كما في السياق 
"8 + 1-35 الما 4312/7/1" 'على بُعْد خمسين كيلو مترا من مدينة 
شينغ بينغ من جهة الشمال": ْ 
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أما عند تحليل عدد ال ”4٠5‏ سلسلة متداخلة باعتبار طول التداخل 
ثلاث وحداتء فلم يحدث أي اختلاف في التمييز بسبب تغير السياق. لذلك فقد 
١‏ نصحا بضرورة تركيز الاهتمام بسلاسل التداخل المختلفة» بالإضافة إلى 
التعامل بصورة منفردة مع الأمثلة الخاصة التي تحمل تطرُهًا وتؤدي إلى 
نتائج تخليل تختلف مع تغير السياق؛ وذلك في أثناء الدراسات المتعلقة بوضع 
استراتيجيات تمييز السلاسل المتداخلة. 

وعلى أساس الدراسة الاستقرائية التي تمت على التذخيرة اللغوية 
الصينية» تمكن فريق البحث بجامعة شان شي مسن وضع قواعد تمييز 
السلاسل المتداخلة باعتبار أن طول التداخل وحدتان» وقد استخدموا تلك 
القواعد في عمل اختبار مغلق لتمييز أنواع التداخل على عدد 45547 سلسلة» 
وقد وصلت دقة التمييز في هذه العملية إلى 90417. ثم استعانوا بالقواعد 
نفسها في عمل اختبار مفتوح على ذخيرة للنصوص الصحفية مُكوّثتة من 
مليوني كلمة؛ فكانت نسبة الدقة .908١‏ 

فما يجب الإشارة إليه هو أن نتيجة الدراسة السابقة التي أَجْرِيّت في 
جامعة شان شي عبارة عن إحصاء لوحدات تقطيع النصوص الصينية بطول 
وحدتين للتداخل؛ وأن الذخيرة التي تم الاستعانة بها ذخيرة لا يتعدى نطاقها 
مليونا وثمانمائة كلمة. وأن الواقع الحقيقي لظاهرة السلاسل المتداخلة أكثر 
. تعقيدًا مما توصل إليه فريق العمل. 
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ثانيًا: دراسة جامعة تشينغ خوا 

استعان سوين ماو سونغ وطلابُه بقائمة المفردات .7131-5831 التابيعة 
لجامعة تشينغ خوا؛ التي تضم عدد ١١763717‏ كلمة؛ في استخراج جميع 
السلاسل المتداخلة التي وصل عددها إلى 7:84 نوعًا؛ وذلك من ذخيرة 
15 للنصوص الصحفية؛ التي يصل حجمها إلى ٠١١ 6.5,١67‏ 
كلمة[10]. وقد تراكم عدد مرات ظهور هذه السلاسل في ذخيرة ودصوم»8 
ليصل إلى ١١17/9765١1١‏ مرةء بإجمالي عدد رموز يصل إلى 55 2,5655547 
ويمثل هذا العدد من الرموز نسبة 65,51؟ من حجم ذخيرة 5نا0زمع18. 

ويعرض الشكل ١-5‏ المنحنى البياني (0” للسلاسل ذات الطول 
الأكبر في التداخل ” مع مراعاة أولوية الظهور داخل الذخيرة» وبمعلومية 
معدل تغطية السلاسل المتداخلة ”. وقد أظهرت الإحصاءات أن عدد الل 
سالسلة المتداخلة ذات معدل التكرار الأعلى؛ التي توالى ظهورها منذ 
بداية الذخيرة قد تجاوزت نسبة تغطيتها ,965٠‏ وأن ال 5114 سلسلة التي 
لها أكبر طول تداخل؛ التي توالى ظهورها منذ بداية الذخيرة قد وصلت نسبة 
تغطيتها إلى 9059,7. 

ومن أجل تجريب النتيجة التي تم التوصل إليهاء قام فريق البحث بعمل 
مراجعة لمعدل تغطية ال 55١95‏ سلسلة التي لها أكبر طول تداخل؛ التي تم 
التوصل إليها سابقا على ذخيرة أطلق عليها اسم ونام:م»4 وتضم نصوصنا 
صحفية» وعلمية» وعسكرية يصل حجمها إلى ستة ملايين كلمة. ويوضح. 
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الشكل 7-5 أن عدد ال 4115 سلسلة التي لها أكبر طول تداخل؛ التي 
توالى ظهورها في ذخيرة 5م18005 احتفظت بنسبة التغطية نفسها تقريبا 
عندما تم تطبيقها على ذخيرة 9«امءم»4؛ حيث وصلت نسبة تغطيتها إلى 
5. وهذا الرقم» على الرغم من من كونه أقل من نتيجنة التغطية 
بذخيرة 115م12201» فإن نسبة الانخفاض ما زالت محدودة بدرجة كبيرة. وهذا 
يعني أن نسبة التغطية التي تم الحصول عليها من ذخيرة 5نام:1220 مستقرة 
إلى حدٌّ كبير» وأن تأثير تَغيُْر مجال الاستخدام اللغوي فيها ليس كبيراء وهذا 
٠‏ يسدى أن كلك النسية قياسية ويمكن تسيدها. 
شكل (ه-١):‏ نسبة التغطية في ذخيرة ودام:م»1 
معدل تغطية السلاسل المتداخلة ” مع مراعاة أولوية الظهور داخل الذخيرة 
بمعلومية السلاسل ذات الطول الأكبر في التداخل 7" 


شكل (5-5): معدل التغطية ”7 داخل الذخيرة كنام1مع4 


للسلاسل المتداخلة ذات الطول الأكبر 7 
التي تتمتع بنسبة تواتر أعلى داخل ذخيرة ودنام:1م»12 
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08 55 8 5م 
لك 


908 


8 


8 5 95 5 9 2 ع ع ع هه عه وم 50 ود هده هه 
نب ده د © هت مع 2 بع له 55 تت تت تت 5ت 5 
2 2 > ح-© بج عنم ون نض يت تس تت 5 5 ا 2 ع تبت 
اي ع للب لل اال 1 51د جد لصم صلم لون سح 


وقد استخلص سوين ماو سونغ من ال 45١4‏ سلسلة التي لها أكبر 
طول تداخل؛ التي توالى ظهورها في ذخيرة 10010105 ثلاث حالات للبس 
كما يلي: 
)١(‏ لبس زائف: حيث يكون هناك نتيجة واحدة لتمييز السلسلة المتداخلة. 
(1) لبس حقيقي من النوع :١‏ حيث يكون هناك نتيجتان أو أكثر 
(؟) لبس حقيقي من النوع جوهر الساسلة يشير إلى وجيرة لين 
حقيقي؛ ولكن دائمًا ما يكون هناك نتيجة واحدة للتمييز. وبعبارة 
أخرىء فإن فرص ظهور نتيجة أخرى للتمييز تكون قليلة جذدّاء 
لدرجة أنه يمكن إدراج هذا الصنف ومعالجته تحت تصنيف عدم 
وجود لبس. 
ويُظهر الجدول 4-6 النثيجة الاحضائية لنسب هذه الصنالاتك دلفل 


الذخيرة. 


413 


جدول (ه-4): النتيجة الإحصائية لنسب حالات اللبس 


نوع اللبس عدد السلاسل المتداخلة النسبة النوعية 
لبس زائف لضفه 
لبس حقيقي من النوع ١‏ م1 
لبس حقيقي من النوع ” ده" 
2005 | 


والسبب في بروز عدد حالات اللبس الزائف في نتيجة الإحصاء هو أن 
التحليل له حالة واحدة فقطء وهذا أمر ليس له علاقة بالسياق؛ لذلك يمكن 
البدء بتسجيل نتائج التمييز الصحيحة لهذا النوع من الكلمات في قائمة» ولن 
يحتاج الأمر إلا إلى عملية معالجة بسيطة من خلال تلك القائمة حتى يمكن 
تعييز هذا التوع من الكلماك بصورة حكيقة دلخل الفضحوص. .ونظر إلى أن 
مجموع نسب اللبس الزائف واللبس الحقيقي من النوع ١‏ قد غطت 718,١‏ 
من إجمالي ال 4511 سلسلة التداخل ذات معدل التكرار الأعلى في ذخيرة 
ددنبرهء12: ونسبة ,9054 من إجمالي سلاسل الكلمات ذات الطول الأكبر 
في التداخل» لذلك فإن استراتيجية التمييز البسيطة التي ذكرت آنفا تعتّبّر من 
الوسائل الفعالة بدرجة كبيرة في حل مشاكل اللبس في تمييز الكلمات داخل 
السلأسل المتداخلة. 

وبمراعاة الخصائص الشكلية للسلاسل ذات الطول الأكبر في التداخل؛ 
مثل طول سلسلة التداخل» وطول الاقتران» وطول السلهبلة وغيرها من 
العوامل» فإن ذلك من شأنه أن يؤثر تأثيرًا مباشرًا في استراتيجيات تمييز 
الكلمات داخل السلاسل المتداخلة. وقد قام سوين ماو سونغ في المرجع 
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رقدا“”! بإحصاء توزيع تلك العوامل الثلاثة داخل الذخيرة اللغوية. وكانت 
نتيجة الإحصاء كما يلي: 


الل د السلاسل ذات الطول الأكبر في التداخل داخل ذخيرة كنام1201: 

يُستخدم الرقمان المُمَجّلان بين القوسين في العمود الذي يحمل عنوان 
00 مو -ة ليشير كل منهما إلئن بداية العناصر المتداخلة» 
وطول سلسلة التداخل على التوالي. على سبيل المثال: في الصف الأول من 
الجدول نجد ما يلي: '(8000,2()1:2 3 ال" حيث إن الرقم الأول في (0,2) 
يُشير إلى أول عنصر في سلسلة التداخل وهو "1318"؛ حيث يقع الرمز الأول 
فيه في الموضع الأول من السسلة (أي أن موقعه في السلسة - صفر) وطوله 
يساوي اثنين (أي أنه قد تم تمييز كلمة مُكوّنة من رمزين ن)؛ أما الرقمان 
(101) فيشير الأول منهما إلى ثاني عنصر في سلسلة التداخل وهو "ثم 8 "؛ 
حيث يقع الرمز الأول فيه في الموضع الثاني من سلسلة التداخل (أي أن 
موقعه في السلسة-١)‏ وطوله يساوي اثنين أيضًا (أي أنه قد تم تمييز كلمة 


مُكونة من رمزين). 
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جدول م توزيع أطوال السلاسل ذات الطول 


الأكبر فى التداخل!') 
ل ار 0 النسبة ٠‏ النسبة ده 
0 الأنواع النوعية العددية 00 1 أمثله واقعية 
ا . المسجلة ْ - ل ل 
0 عويب | مو سويه | بسو وو ١‏ 29 با (,0 1717 159,201,23١‏ 11/8 


ا ! (70/184)0,2(01,2 ,(00,2()1,2ر . 
١‏ 0 0 253804 ,(755318/)0,2()1,3 
١٠ 5‏ ا ره 4 | 0/0484 (1700,3(0,2 1711 _,(3,30)1,3) 
لمعه" مه 00 ملذ كن تعدخ «(2[15)0,3()2,4 1 ناي 
5 للد - (0,4()2,3) 512 0,3()2,3(._38|1239) 
: 0 0 | 0 3772 كز ,(2,4) (0,3) نات كر تق 


(0,4()2,4) 
' , نه | تالا )0,4:)2,4)4,3(,١‏ 66 تعلاط 
' مطئط الكطة الس (0,4()3,2()4,3) ككف زا 
١١ 94 5 /‏ زه . 06 وام 9 ,(0,3()2,2()3,4()6,2) شرعة م 83 
3 | "| (1"22600,42)3,2()4,2()5,3 الك تاكاه 
5 ات |2 4.مؤة ]| تك و اا باه 


)0,3()2,2()3,2()4:2()5,2()6:3( 


)١(‏ النماذج اللغوية في هذا الجدول والجداول الشبيهة في هذا الباب للتمثيل على ظاهرة 
تنفرد بها اللغة الصينية تتمثل في عدم وجود فاصل بين حدود الكلمات في النصوص 
التحريرية» وتحديد هذا الفاصل يقوم به العقل البشري بطريقة منطقية تعتمد على 
السياق وتصاحُب الرموز الصينية. أما بالنسبة إلى الآلة فالأمر يحتاج إلى طرق 
استدلالية تَسسْشّمد مقوماتها من الأداء البشريء إلى جانب الدراسات الإحصائية لمعدلات 
تصاحب الرموز وتسب تكرارها. إلا أن الأمر لم يستقر عند هذا الحد؛ حيث. ظهرت 
حالات اللبس في وضع حدود للكلمات آليّاء الأمر الذي استدعى وجود مثل تلك 
الدراسات التي ينفرد بها هذا الفصلء التي حققت نجاحًا كبيرا على المستوى التطبيقي. 
وقد اعثيّر” علماء الاغويات الحاسوبية باللغة الصيدية هذه القضية بمثاية عفق الؤجاجة 
في سبيل خروج اللغة الصينية التحريرية إلى مستويات المعالجة الآلية» ونود الإشارة 
إلى أن ما توصل إليه الصينيون من حلولء من الممكن أ يتشد يد في وطيع حافك 
لمشكلات اللغة العربية في التشكيل الآلي للكلمات الذي يُعْتبر أيضًا غنق الزجاجة أمام 
اللغة العربية في مجال المعالجة الآلية. (المترجم) 
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11 عل ازا 1-20 و 
(2)504,2()5,2()6:4) 
27211 1خ |11 1 أرجت حك 
(0,5()4,2()5,2()6,2()71:3()9:2) 
5 21206 لكا ذخ :3 1 11م 
(0,2(01,2()2,2()3,2()4,2()5,2()6:2()1:2()8:2) 
(9,2(010,2) 
ع7 نز للاتد ف زالة2 [اررمة ركد 
(0,9)8,2()9,2()11:2) 
8112 157131 حك يتغل 
(0,20)1,:2()2:4()5,2()6,2(07,2()8,2()9,2()10,4) 


00 00 


عضحيةا 
اام 90 


الإجمالي لقم أإاىأ 

وتشير نتيجة الإحصاء إلى أن النسبة النوعية والنسبة العددية 
للسلاسل ذات الطول "؛ 5 رموز قد وصلت إلى 908,87 وه90895,6 
على التوالي؛ مما يُنْبت بما لا يدع مجالا للشك أن هذين الطولين يمثلان 
الطول الأكبر لسلاسل الكلمات المتداخلة داخل ذخيرة ودام:ه»2. وإذا قمنا 
بجمع النسب الخاصة بالسلاسل ذات الطول 5.2.64:7 معًا سنجد أن النسبة 
النوعية والعددية لهذه السلاسل مجتمعة :ههي 9617,18 و5١,9,611‏ على 
التوالي. ومن الواضح أن هذه الأطوال الأربعة للسلاسل الكلامية ينبغي أن 
تصبح محل اهتمام العلماء والباحثين. 


(؟) توزيع طول محور التداخل في ذخيرة 15ام:دم»1: 
أظهرت نتيجة الإحصاء أن العناصر المتداخلة؛ التي تتجاور حدودها 


في سلاسل التداخل لا يتعدى طول تداخلها أكثر من رمز واحد (وصلت 
النسبة النوعية لهذا الطول 95,517؟ والنسبة العددية له 9649,:5)؛» وكان 
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إلى عدم وجود عناصر متداخلة يصل طولها إلى 4 رموز على الإطلاق. 


(") توزيع طول السلاسل ذات الطول الأكبر في الذخيرة: 


. جدول (ه-1): توزيع أطو 


العدد | النسبة 
طول | النوعى | النوعية 
التداخل | لمحور | لمحور 
١‏ التداخل | التداخل 
١‏ 45ص | لاه,ة 91 
"0 ضفل “900 
: 
إن ٠١‏ 90 
7 
الإجمالي | “.4.595 رطا" | 


العدد النسبة 
| . 5-0 - 
لكمى أمثلة واقعية 
لمحور | لطول 
التداخل 
«(0,2()1,2()2,2) 1157ل امنا 
كمه" .5 | صو 
5 0,40)3,2 لظا 
«(0,4()2,3) تعد 2 زر بك 
1ه" امن 
(0,2()1,3()2,3) مسد وزعت و 
ل 1232 7 نئل رالا 


لح 
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ل 


ال السلاسل ذات الطول الأكبر في الذخيرة 


)0,201,42)2,4(. 3] شفع‎ | ١ 


1720-1 )0,5()2,5( 


جدول (ه-١):‏ توزيع طول السلاسل ذات الطول الأكبر في التداخل 


١١65ة51/‎ 


١55٠ 


"5 


متنا 


النسبة النوعية 
2017 


90 


(01 


9/0 


00 


م0 


9/١ 


| 11 


000 


1000 


كر 0 


000 
00 


00 


1 


مانت |رعتع عع د ود ١‏ 


)6,2()7:2()8:2()9:2(010:2( ١ 


900 
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أمثلة واقعية 


ع 8 ,(0,2()1,2) 71172 


2 31 ,(0,3()1,3)< 
(©8)0,4()2,4 
«(15:)0,2()1,2()2:2 11 ]اع 
(1)0,2(01,2(01,3 1181 ف 
جز 9 5 8ت حل 
لقم ,(0,2()1,2()2,3()4,2) 
لا ا حا ا ري 


(0,2(01:2()2:4()4:4) 
1غ 81 
:(0,2001,2()2,2()3,2()4,2) 
1 نل 


(0,2()1:2()2:3()4:2()5:2) 
27 18101 راك [لاعة 
| (0,2()1:2()2,2()3:3()5,2()6:2) 
48لا حد لكا 35 :11 5 كك راطلة 
(0,2()1,2()2,3()4,2()5,4()8,2) 
(9,2") 
ا سس مس 
(0,2()1,2()2,2()3:2()4,2()5,2) 
(6,2(07:2) 


)0,2()1,2()2,2()3:2()4,2()5:2( 
)6,2(07:2()8:2( 

ع3 تمك ور 11 4 
(0,2()1,2()2:2()3:2()4:2()5:2) 
ال ل لك 
حك 1296| رذع 1130 تاج 

1 


)0,2()1,2()2:2()3,2()4,2()5:2( 


وقد أظهرت نتيجة الإحصاء أن السلاسل ذات الطول 7.7 رمزا! 
تحتل النسبة الأكبرء وأن النسبة النوعية لها تصل إلى 9650,05: والنسبة 
العددية لها تصل إلى 90917,77. وأن أطول سلسلة قم مشاهدتها داخل 
الذخيرة التي يصل حجمها إلى مائتي مليون كلمة كانت١١‏ رمزا ولم تظهر 
إلامرة واحدة فقط. 2 

قد أظهر مستوى أعمق من استقراء الذخيرة أن النوع الواحد من 
السلاسل قد يحتوي تكوينات داخلية مختلفة من حيث التركيب. ومن الواضح 
أن اختلاف التركيب الداخلي للسلاسل الرمزية ذات الطول الأكبر يؤدي إلى 
اختلاف استراتيجية التمييز. على سبيل المثشالء السلسلتان "6بألا-1 8" 
و"#*487#42 لهما طول واحد هو أربعة رموز صينية» إلا أن الأولى بها 
محورين للتداخل طول كل منهما رمزين وهما على التوالي "مالظ81". 
و"كاالا1". أما في الثانية فنجد أن بها محور تداخل يصل طوله إلى ثلاثشة 
رموز حيث يُوَلّد هذا المحور بالتالي الكلمات ثنائية الرمز "187" و46"'. 
و"ت*رت" على التوالي» وعلى هذا الأساس نجد أن طول محور التداخل بهذه 
الكلمات يصل إلى رمز واحد. 


22 0 


وهناك تراكيب معينة في سلاسل التداخل من الممكن الحصول على 
نتيجة جيدة في تمييز كلماتها إذا تم الاعتماد على الأنواع النحوية للكلمسات؛ 
ولكن استخدام هذه الطريقة في معالجة تراكيب أخرى لا يضمن الحصول 
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على نتائج مرضية. وقد قام سوين ماو سونغ بتقسيم السلاسل ذات طول 
التداخل الأكبر من حيث التركيب الداخلي لها إلى نوعين هما سلاسل ذات 
تركيب كبيرء وسلاسل ذات تركيب دقيقء» هذا بالإضافة إلى أنه قدم وسيلة 
لوصف هذين النوعين والنتائج الإحصائية الخاصة بكل منهما كما يلي: 


)١(‏ طرق التعبير عن أنواع التراكيب الكبرى للسلاسل والنتائج الإحصائية 

لتقسيماتها: 

نظرا إلى أن العناصر المتداخلة هي الوحدات الأساسية التي تتكون 
منها سلاسل التداخل» فإنه يمكن إجراء عملية تقسيم الكلمات داخل سلسلة 
الرموز المتداخلة 5 وفقًا لتلك العناصر. وبصورة أكثر تفصيلاً يعني ذلك أن 
كل زوج من الأرقام داخل القوسين في الجدول السابق يشير الرقم الأول 
منهما إلى بداية التمييزء في حين أن الرقم الثاني يشير إلى طول سلسلة 
التمييز داخل سلسلة التداخل 5. على سبيل المشال: سلسلة التداخل 
"5 إلا4861" تم تسجيل معلومات التركيب الأكبر لها على أنه (0.")؛ أي أن 
بداية التمييز تبدأ من الرمز الذي يحمل الرتبة )١(‏ داخل السلسلة وهو الرمز 
"6" وطول الكلمة التي يتم تمييزها هي ثلاث رتب بدءًا من الرتبة )٠(‏ وهي 
الرموز (لا-2531) وبذلك تكون الكلمة التي تم تمييزها هي (ملا د كك) 
"الصناعات الثقيلة"» و(1:”)؛ أي أن بداية التمييز تبدأ من الرمز الذي يحمل 
الرتبة )١(‏ داخل السلسلة وهو الرمز "1" وطول الكلمة التي يتم تمييزها هي 
ثلاث رتب بدءًا من الرتبة )١(‏ وهي الرموز (56لللا1) وبذلك تكون الكلمة 
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التي تم تمييزها هي (565/لا1) 'مناطق الصناعة"؛ والسلسلة "©*ر تك 7816" تم 
تسجيل معلومات التركيب الأكبر لها على أنه (١٠؟)؛‏ (520؟)؛ (507). 

وعند تصنيف إجمالي السلاسل ذات التركيب الأكبر التي احتوتها 
ذخيرة 5نام:مء1؛ التي وصل عددها إلى 73١5:8848‏ سلسلة تم الحصول 
على عبد 7١7‏ تضنيفا. وفيما يلي يعرض الجدول: 4-5 معلومات عن 
التركيب الأكبر لعدد ؟١‏ تصنيفا منها؛ حيث يمثل هذا العدد أهم التصنيفات 
التي تم التوصل إليها. وتشير الأرقام الإحصائية في هذا الجدول إلى أن 
توزيع التركيب الأكبر للسلاسل مُركز بدرجة كبيرة؛ حيث تمشل معلومات 
التركيب »)2٠١(‏ و(١١؟)‏ بالإضافة إلى :)5٠١(‏ و(١1١2)»‏ و(75١1)‏ نسبة 
التواجد الأكبر من بين ال 76٠١‏ سلسلة؛ حيث يحتوي كل سجل في الجدول 
أحد هذه العناصر على أقل تقديرء وقد وصل إجمالي النسب النوعية والعددية 
لهذه التراكيب إلى 96077,51: و9684,5 على التوالي. 
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: توزيع التركيب 


الأكبر للسلاسل المتداخلة 
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(؟) طرق التعبير عن أنواع التراكيب الدقيقة للسلاسل والنتائج الإحصائية لتقسيماتها: 

يُقصّد بالتراكيب الدقيقة داخل سلسلة الرموز كل من موضع الكلمسات 
المحتواة داخل السلسلة وطولها (بغض النظر عن كونها تمثل عناصر متداخلة 
أم لا) (بما في ذلك الكلمات التي طولها رمز واحد) على سبيل المثال: 

سلسلة التداخل: 2 
3 14 8ه 1 

أنواع التراكيب الدقيقة التي تحتويها السلسلة: (١٠٠١)؛‏ (0.")؛ (١١٠١)؛‏ 
كع (لمم)ء (لمل)ء للع (ول)ء زلم 

سلسلة التداخل: 

خثر ع4 75 38 

أنواع التراكيب الدقيقة التي تحتويها السلسلة: (١٠٠١)؛‏ (0:"؟)ء »)١2١(‏ 
الديلى نذا اليا اندلق 

ومن هنا نلاحظ أن التركيب الأكبر الواحد من شأنه أن يحتوي عدذا 
من التراكيب الدقيقة. وبالنسبة إلى أبسط تركيبين كبيرين »)5٠١(‏ و(1١1)؛‏ 
والذين لهما معدل التكرار الأعلى في الذخيرة نجد أنهما يحتويان الحالات 
الثمانية التالية من التراكيب الدقيقة: 


5 زءء؟”/ى ز1؟‎ -١ 
710070001 <١ 
نكا فق لان نك‎ 
111)01[)5»: <4 
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وعند تصنيف إجمالي السلاسل ذات التركيب الدقيق التي احتوتها 
تكوره ههه : الث وفل ععفا فى ىن + اتشلة عم الحتسول 
على عدد 11117 تصنيف؛ وفيما يلي يعرض الجدول 14-5 معلومات عن 
أهم التصنيفات التي تم التوصل إليها؛ حيث تَمَثَل معلومات التركيب الدقيقة 
»)1٠١('‏ و(0؟)» و(161)» و(41؟): و(061) بالإضافة إلى »)1١('‏ 
و(0١٠؟)»‏ و(١١٠)»‏ و(11) و(067)» و(1675): و(05)" نسبة التواجد 
الأكبر من بين ال ١4٠‏ سلسلة؛ حيث يحتوي كل سجل فني الجدول أحد هذه 
العناصر على أقل تقدير» وقد وصل إجمالي النسب النوعية والعددية لهذه 
التراكيب ,9011١,7‏ و9687,0 على التوالي9075. وتشير النتائج 
الإحصائية» على الرغم من أن توزيع التراكيب الدقيقة يبدو أنه أكثر تشتنا 
من التراكيب الكبيرة» فإننا إذا نظرنا إلى الأمر نظرة كلية سنجد أن هذا 
النوع من التراكيب ما زال متماسكا بدرجة كبيرة. 
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هذا وقد استخدم المرجع رقم[96] عدد ١١4‏ علامة من علامات 
التصنيف النحوي للكلمات لعمل تصنيف أكثر تفصيلاً للتراكيب الكبرى 
. والدقيقة؛ على سبيل المثال: سلسلة التداخل "إللاغ +3" و ",1ل" 
و"للارا##4" تركيبها. الأكبر هو :)٠07('‏ و(5١٠),‏ إلا أن الأنواع النحوية 
للعناصر المتداخلة في هذه السلاسل مختلفة» وهي على التوالي كما يلي (اسم 
+ اسم)ء و(فعل + اسم)ء و(فعل + فعل). 

وقد تم إضافة علامات التصنيف النحوي لعناصر التداخل في عدد ال 
سلسلة كلامية التي تحتويها ذخيرة عنام:100: ثم كسمت حسب 
التركيب الأكبر لها فكانت النتيجة الحصول على عدد ١5.548‏ نوعًا. 
ويعرض الجدول )٠١-0(‏ معلومات عن توزيع ال ١١‏ نوعًا الأساسية من 
هذه النصنيفات. وعند عمل تصنيف إضافي أكثر تفصيلاً للتراكيب الكبرى 
في السلاسل المتداخلة حسب معلومات التصنيف النحوي للكلمات الداخلة في 
التركيب؛ وجد أن هناك تشتتا في التوزيع؛ حيث يحتوي كل صنف عدد ١4‏ 
مثالأء وقد تجاوز إجمالي النسبة النوعية والعددية لل ١١‏ نوعًا التي وردت 
في البداية .7906٠‏ 

وبالقاعدة نفسها من الممكن إضافة علامات توضح التصنيف المحتوي 
لكل كلمة من كلمات سلاسل التداخل (بما في ذلك الكلمات التي تتكون من 
رمز واحد). على سبيل المثال» سلسلة التداخل "229245" "السلطة التشريعية" 
يتم وضع علامات التركيب الدقيق ومعلومات التصنيف النحوي لعناصرها 
كما يلي: "(١٠0()1٠21()561()161()5١)+(8,78,78ارهرهة)"‏ وأصبحت 
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نتيجة ذلك تمييز عدد 123,356 كلمة من بين ال 233,888 سلسلة متداخلة في 
الذخيرة» بمعدل لا يزيد عن رمزين لكل كلمة من الكلمات التي تم 
استخراجها. وقد كان عدد الكلمات التي تم الحصول عليها من خلال هذه 
الطريقة لتحليل التركيب الدقيق لسلاسل التداخل كبيرًا لدرجة ضعف معها 
المغزى الحقيقي لهذه الطريقة في التقسيم. إلا أن نتائج الإحصاءات التي تم 
الحصول عليها قد كشفت عن درجة كبيرة من تعقد أنماط تراكيب سلاسل 
التداخل» ويعتبر ذلك من العوامل التي ينبغي أخذها بعين الاعتبار في أثناء 
وضع التصميم التفصيلي للطرق الحاسوبية في تمييز الكلمات داخل 
النصوص الصينية. 
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يتضصح هما منبق أن نتائج إزالة اللبس من سلاسل.الكلمات المتدالظة”» . 
التي تعتمد عليها أنظمة تمييز حدود الكلمات في اللغة الصينية لم تصل إلى 
الحد المرغوب فيه حتى الآن. والسبب الرئيس في ذلك هو أن العلماء لم 
يصلوا إلى سبر أغوار التشابك والتعقد الكامن في سلاسل الكلمات المتداخلة؛ 
بالإضافة إلى أن الطرق الحاسوبية في إزالة اللبس لم تصل إلى حد النضح 
بعد. إن الأعمال الاستقرائية التي قام بها فريقا البحث بكل من جامعتي شان 
شي وتشينغ خوا على ذخيرة كبيرة الحجم واستخدام بيانات إحصائية دقيقة 
كان من شأنه إزالة ساتر الغموض عن سلاسل الرموز المتداخلة:؛ وإتاحة 
الفرصة لتكوين رؤية مشتركة بين الباحثين حول تلك المشكلة بالإضافة إلى 
إدراك طبيعة الاختلافات التركيبية فيما بين عناصرها. وهذه النتيجة. 
ضرورية بدرجة كبيرة في التوصل إلى طرق حاسوبية في إزالة اللبس آلِيَا 
عن سلاسل الرموز عند تصميم تلك البرمجيات على أرض الواقع. وقد 
أظهرت الأعمال التي قام بها فريقا البحث أن برمجيات التمييز الآلي لحدود 
الكلمات القائمة على استقراء الذخائر المُكوّنة من سلاسل متداخلة كان من 
شأنها رفع دقة إزالة اللبس عن سلاسل الرموز المتداخلة بصورة ملموسة. 
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الفصل الثاني 
الدراسات المتعلقة بتمييز 
التعبيرات الاسمية الأساسية في اللغة الصينية 


إن تمييز التعبيرات الاسمية الأساسية من الدراسات المهمة في حقل 
معالجة اللغات الطبيعية واسترجاع المعلومات والترجمة الآلية وغيرها من 
المجالات. وقد قدم العالم تشيرش (ط»:داط©) تعريفا للتعبيرات الاسمية 
الأساسية في اللغة الإنجليزية (02561/8) بأنها "التعبيرات التي لا تتضمن 
تعبيرات اسمية أخرى بداخلها7”. وقد اعتبر تشيرش أن تمييز التعبيرات 
الاسمية الأساسية بمثابة الإشكالية التي تمدن من عملية ترميز الحدود اليمنى 
واليسرى لهذه التعبيرات» ويتم تحقيق ذلك من خلال نمط العنصر /ا. وقد 
سبق أن قامت العالمة لي وين جييه من جامعة اللغة الصينية بهونج كونج 
باستخدام طول التعبيرة الاسمية (77-878:0) في عمل تمييز للحدود الكبرى 
للتعبيرات الاسمية. وقد أثبتت تجربتها أن الاكتفاء باستخدام طول التعبيرة 
الاسمية (0:مع-/3) الذي سبق تحديده وفقا للتصنيف النحوي للكلمات لا 
يكفي لعمل تمييز صحيح للتعبيرات الاسمية داخل النصوص الصينية. هذا 
وقد قام العالم جاو جوين!”! من جامعة تشينغ خوا بوضع تعريف للتعبيرات 
الاسمية الأساسية في اللغة الصينية» بالإضافة إلى أنه اعتمد على ذخيرة 
استرشادية تم ترميزها يدويًا في استخدام أنماط التراكيب النحوية مع التحرر 
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من السياق. إلا أن الدراسة أوضحت أن ترتيب الكلمات الذي يتطابق مع 
' أنماط التراكيب النحوية شرطا طنروررًا لتركيب التعبيرات الاسمية الأساسية 
وليس شرط اكتفاء يمكن الاستغناء به عن وجود باقى الشروط. فإذا تم 
الاعتماد على ترتيب الكلمات داخل النصوص في التعرّف على التعبييرات 
الاسمية الأساسية بصورة أساسية فسوف تكون نسبة الدقة بما لا يتعدى 
5.. لذلك إذا أردنا عمل تمييز دقيق للتعبيرات الاسمية داخل 
النتصوص؛ فسوف نحتاج إلى القواعد المتعاقة بالسياق في استخراج 
التعبيرات الاسمية الأساسية» التي يتم التوصل إليها من خلال التدريب 
والتجريب المستمرين. وقد أثبتت الدراسات أن الحم سن كل بسن الضائا 
التراكيب الأساسية للتعبيرات الاسمية 8/(ءووط وقواعد التحور يل الخاصة 
بالسياق المحيط بالتعبيرة الاسمية 561/8هط من شأنه ان يُحقّق نسبة دقة في 
التمييز تصل إلى :96341,١‏ و ,9687 في كل من الاختبارات المغلقة والحرة 
على التوالي. 
5 أولاً: تعريف التعبيرات الاسمية الأساسية 5»(/2ه0 في اللغة الصينية 


كما سبق أن أشرنا قَدّمَ العالم تشيرش تعريفا للتعبيرات الاسمية 
الأساسية على أنها "التعبيرات التي لا تتضمن تعبيرات اسمية أخرى بداخلها". 
بمعنى أن تركيبها الداخلي لا يمكن أن يحتوي تعبيرات اسمية أقل. ويبدو أن 
هذا التعريف لا يُمْكن أن يفى بأغراض معالجة اللغات الطبيعية باللغة 
الصينية» على سبيل المثال تعبيرات اسمية؛ مثل: "84837575438" 'معالجة 
اللغات الطبيعية"» و"#8415:81 الإ" 'الأزمة الاقتصادية في آسيا”. 
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و "28+41" "إصلاح النظام الاقتصادي". وغير ذلك من التعبييرات 
الصينية التي لا يمكن أن ينطبق عليها شرط عدم إمكانية الاحتواء على 
تعبيرات اسمية أقل. ولكن من وجهة نظر استرجاع المعلومات والترجمة 
الآلية فإن هذه التعبيرات لها معاني خاصة؛ وتحتاج المعالجة على أنها 
بأكملها تنتمي إلى التعبيرات الاسمية. وقد سبق أن قدم جانغ وي قوه تقسيمًا 
ثلائيًا لأنواع المُحَدّدَات التي تأدن في التعبيرات الاسمية هي: مُحَدّدَات للتقييد» 
ومُحَدّدَات للوصفء ومُحَدْدَات للتمييزا*!!. وقد قَنّمَ جاو جوين مجموعة من 
التعاريف الشكلية للتعبيرات الاسمية الأساسية (0356) وفقا لمُّحَدّدَات التقييد 
كما يلي: 
الععوط + طللتلعووا ل 2للعوة18 
مصدر | اسم + طلاءعوو جل 10و88 
2م2825 + مُحَدّد للتقييد ج- 722856(/2 
مصدر | اسم + مُحَدّد للتقييد +- 128856132 
مُحدّد التقييد -> صفة | تمييز | فعل | اسم | ظرف مكان | سلسلة من 
الحروف اللاتينية | عدد وكلمة كمية. ش 
ووفقا للتعريف السابق» يمكننا تقسيم التعبيرات الاسمية في اللغة 
الصينية إلى نوعين أساسيين هما: تعبيرات اسمية أساسية» وتعبيرات اسمية 
غير أساسية» وفيما يلي نطرح بعض الأمثلة للشرح: 
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جدول (ه-١1):‏ أمثلة على التعبيرات الاسمية 
الأساسية والتعبيرات الاسمية غير الأساسية 


تعيرات اسمية أساسية تعبيرات اسمية غير أساسية ٠‏ | 
187 001 6< علة سيط | عتطكد ‏ انرو جع اوس 
ل كر 
77 88# 11718 | جنئكتع 1‏ لتونقه ‏ سجزوزم 
زرا لغ #اعاطة مقعملا تحر عجغ 
:يننا 5 حنعج/1 | بق 


ثانيًا: أنماط التراكيب النحوية في التعبيرات الاسمية الأساسية 
انطلاقا من تعريف التعبيرات الاسمية: يمكننا أن نغرف أن تلك 
التعبيرات ينبغي أن تلتزم في تركيبها بقواعد نحوية مُحَدَّدَة وقد أطلق جاو 
جوين على تلك القواعد غير السياقية التي تبنى على أساس من التصنيف 
النحوي للكلمات والعلامات الخاصة بالتعبيرات اللغوية اسم أنماط التركينب 
النحوي (اختصار! الأنماط النحوية). إلا أن مزيدا من الدراسة قد أثبت أن 
ترتيب الكلمات بما يتوافق مع أنماط التركيب التحوي يُعَدُ شفرطا ضروريًا 
لتكوين التعبيرات الاسمية الأساسية ولكته ليس شرط اكتفاء يمكن الاف_تغناء 
بوجوده عن الشروط الأخرى. فالتعبيرة اللغوية عندما يتوافق ترتيب كلماتها 
مع نمط التركيب النحوي قد لا تكون تعبيرة اسمية أساسية» وينقسم هذا النوع 
من التعبيرات. إلى الحالتين التاليتين: 
١‏ - عدم وضوح الحدود: ففي داخل الجملة توجد بعض الكلمات التي 
يتوافق ترتيبها داخل الجملة مع أحد أنماط التركيب النحوي. وهذه 
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الكلمات بهذا الترتيب قد ينطبق عليها شكل نحويء وقد لا ينطبق. 
انظر المثالين التاليين: 
مثال :١‏ 
ه 26 نك 31 815 نل شم [لا-1 2 ا 1 235 7ه 
أزمتها" [تعبيرة اسمية أساسية (708»وه0)] 
مثال ": 
ه 11448115 نالة؟ 1+1 89 2 75 ظ روج الاظا 
"أعلنت شركة آي بي إم 1834 عن تخفيض شامل في أسعار 
الحاسبات الشخصية" [تعبيرة غير اسمية]. 
ففي المثال الأول؛ نلاحظ التعبيرة "17/38 235//”. وفي المشال 
8 
الثاني التعبيرة "5[/28.:37/9ج": كل منهما يتطابق مع نمط التركيب 
النحوي للتعبيرات الاسمية الأساسية كما يلي: /(+لاج ظلااع835. إلا أن 
الأولى تُعتَبّر تعبيرة اسمية أساسية 0856105 أما الثانية فليست تعبيرة اسمية 
فحسبء وإنما لا تتدرج تحت أي نمط نحوي معروف.. وبعبارة أخرى فإن 
كلا من كلمتي "[5" “شركة"؛ و"275" "أعلن" المتجاورتين في المثال الثاني 
تنتميان إلى المسند إليه والمسند على التوالي» ولا يمكن أن يضمهما حدود 
تركيبية لتعبيرة لغوية واحدة. 
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-١‏ اختلاف نوع .التعبيرة اللغوية: قد يتواجد داخل الجملة تسلسل 
للكلمات يتوافق في ترتيبه مع ترتيب بعض الأبنية النحوية» إلا أن 
هذا التسلسل قد يكون تعبيرة اسمية أساسية؛ أو نوعًا آخر من 
التعبيرات اللغوية. انظر المثالين التاليين: 

056 | 
ا 0 

'ظروف توظيف خريجي الجامعات هذا العام صعبة للغاية”. 

مثال 5: ا 

ه الاركقلةة لالعلة] /ارجادك ؟إعدج | اارع1© | العا زر ره ف 

"أعلن بنك الشعب الصيني اليوم عن تخفيض سعر الفائدة". 


ترتيب الكلمات في التعبيرتتين "3/17ئ77"/الاةة" 'ظروف توظيف؛ 


و 1#:1/9778185/137' 'تخفيض سعر الفائدة" يتطابق مع أحد أنماط التعبيرات 
الاسمية الأساسية ظلاع85ط وهو النمط ل8(+ /اج ظلاع5ة8 إلا أن 
التعبيرة الأولى تعبيرة اسمية أساسية» أما الثانية فتعبيرة فعلية. 


وقد قتّم المرجع 2" تعريفا بالخطوتين اللتين اتبعهما العالم جاو جوين 


بشأن التّعَرُف على التعبيرات الاسمية الأساسية كما يلي: 


(أ) من ذخيرة استرشادية سبق ترميز التعبيرات الاسمية الأساسية بها 
يدويًا ومن دون الاعتماد على السياق يتم استخراج أنماط التراكيب 
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النحوية للتعبيرات الاسمية» ومن النصوص موضع الدراسة 
التجريبية يتم ترشيح التعبيرات الاسمية 5356/0/7 التي يتطابق 
ترتيب الكلمات بها مع ما تم استخراجه من الذخيرة الاسترشادية؛ 
(ب) الاستعانة بمنهجية اكتساب طرق التحويل في استخراج التعبيرات 
الاسمية 0856/08 اعتماذا على القواعد المتعلقة بالسياقء ومن هنا 
يمكن الحكم أن تراكيب الكلمات التي تم ترشيحها هي تعبيرات 


ثالفًا: استخراج أنماط التركيب النحوي للتعبيرات الاسمية 
ينقسم استخراج أنماط التركيب النحوي إلى الخطوتين التاليتين: 
-١‏ إنشاء ذخيرة لغوية تحتوي ترميزا يدويًا للتعبيرات الاسمية 
الأساسية 8لااع688. 
؟- عمل انتخاب مبدئي لأنماط التجمع بين كلمات الذخيرة:» وإنشاء 
مجموعة من أنماط التركيب النحوي الأساسية وفقا للمعلومات 
الإحصائية الموجودة بالذخيرة اللغوية موضع الدراسة. 
)١‏ ترميز التعبيرات الاسمية الأساسية 5ل1/ع35٠0‏ داخل الذخيرة 
وصل حجم الذخيرة اللغوية التي رمّزها جاو جوين بطريقة يدوية إلى 
. مائة ألف كلمة تم تمييز حدود كلماتها وإضافة رموز للتصنيف النحوي لها ' 
آليّا؛ وقد اعتمد على تعريف التعبيرات الاسمية الأساسية بالإضافة إلى 
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مجموعة المعايير التالية في عمل الترميز اليدوي للتعبيرات الاسمية الأساسية 
في تلك الذخيرة. وقد استبْعّد من هذه القواعد لاستخراج التعبيرات الأسمية 
كلا من التراكيب التي تحتوي الأداة المساعدة "89" والتعبيرات التي تحتوي 
حروف العطف مثل "71" و"ل". و"22": و"12" والفاصلة القصيرة 
7" والكلمات المعبرة عن الزمن» والضمائرء وحروف الجرء بالإضافة 
إلى التراكيب المُكوّنة من الأعداد والكلمات الكمية؛ وما إلى ذلك. 
؟) الأنماط النحوية الأساسية للتعبيرات الاسمية للءوهط 

على أساس من التصنيف النحوي للكلمات والمعلومات الخاصة 
بمقاطعها الصوتية قام العالم جاو جوين باستخراج عدد 407 نمط تركيب 
نحوي لتعبيرة اسمية أساسية من الذخيرة التي سبق ترميزها يدويًا؛ التي 
اعتبرها بمثابة ذخيرة استرشادية» ومن بين هذا العدد كان هناك عدد 14 
نمطا تكرر ظهوره داخل الذخيرة أكثر من خمس مراتء بما يُغخطي نسبة 
5 من التعبيرات الاسمية الأساسية داخل الذخيرة. وقد أأطلّق جاو 
جوين على ال 54 نمطا المشار إليها اسم أنماط التركيب النحوي الأساسية. 
ويُقدّم الجدول التالي رقم ١١-٠‏ عرضنا هعم أنماط التركيب النحوي 
الأساسية» وتتكون العلامات المُسَجّلة أمام كل تركيب نحوي من جزأين: 
الأول مكتوب بالحروف الإنجليزية الكبيرة للتعبير عن التصنيف النحوي 
للكلمة» والثاني عبارة عن رقم مُلاصق للحروف يشير إلى عدد الرموز 
(1) الفاصلة القصيرة إحدى علامات الترقيم التي تنفرد بها اللغة الصينية ونُستَخدّم في 

الفصل بين العناصر المتساوية في الرتبة داخل الجملة الصينية. (المترجم) 
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المكونة للكلمة. على سبيل المثال: نمط التركيب النحوي <21ل56ةط الذي 
يحتوي العلامات "78022+57212 يُعَبّر عن كلمة اسمية مكونة من مقطعين 
' صوتيين يُشار إليها بالعلامة (762)؛ ومَصندر مُكوّن من مقطعين صوتيين 
يشار إليهما بالعلامة (9702). 


جدول :)١١-5(‏ الأنماط النحوية الأساسية للتعبيرات الاسمية ومكوناتها 


ا ال مسري لحري مث برصيص 
يي حدم مس0 021 اد 
1100 1 ع 2+2 ميت امنا 
1002 ظ ممما لي ان لسعد. 
221002 د و ا ا مسستسمع 
6/056 157 | 2-102-762 1162130 اس 


وقد أظهرت الإحصائيات أنه إذا تم ترميز جميع التراكيب التي تتطابق 
مع أنماط التركيب النحوي على أنها تعبيرات اسمية فسوف يكون معدل 
التغطية حوالي 4638,5,: إلا أن نسبة الدقة في التمييز لن تتعد 9658,5. 
وهذا يشير إلى أن الاكتفاء بالاعتماد على الأنماط المُتحرئرة من السياق لا 
يحل عملية الغموض في تمييز حدود التعبيرات الاسمية الأساسية وأنواع 
التعبيرات اللغوية. 
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رابعًا: قواعد تمييز التعبيرات الاسمية اعتمادًا على السياق 


قَدّم العالم بريل (8:411) منهجية اكتساب طرق التحويل التي يتم دعمها 
من خلال الخطأ[101]» وقد سبق أن قام العالم رامشاو (218طوصده8) بتطبيق 
هذه المنهجية في تمييز حدود التعبيرات اللغوية داخل النصوص 
الإنجليزية[102]. وقد استعان جاو جوين بمنهجية اكتساب طرق التحويل 
الخاصة ببريل في استخراج القواعد التي تَمَكن من تمييز التعبيرات الاسمية 
الأساسية اعتمادًا على السياق. ويوضح الشكل التالي رقم ه-" طريقة 
الحساب التي يتم على أساسها تمييز التعبيرات الاسمية اعتمادًا على السياق: 
شكل (ه-"): رسم توضيحي يبين أنماط تمييز التعبيرات الاسمية 12(ء5وط 

3 اعتمادًا على قواعد التحويل 
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فالبداية تكون عن طريق عمل ترميز مبدئي للتعبيرات الاسمية 
. الموجودة في النص الذي يتم إدخالها وفقا لأنماط التركيب النحوي للتعبيرات 
الاسمية» ثم تقارن نتيجة الترميز المبدئي مع النتيجة الصحيحة؛ ونلك من 
أجل اكتشاف الأخطاء في عملية الترميز المبدئي. ومن هنا يتم الاستدلال 
على أنماط القواعد التحويلية المرتبطة بالسياق مقدمًا. وسسْتّخْدَم تلك القواعد 
في عمل تحويل لنتائج الترميز الحالية بأكملهاء بالإضافة إلى تخزين القواعد 
الجديدة التي تم التوصل إليها حسب أولوياتها ضمن مجموعة القواعد التي 
تق وضيدهاء ويكزان لمارا السايقة يم التطم .من الأخطا فدى كتين 
القواعد التحويلية المتعلقة بالسياق واحدة تلو الأخرى. خلاصة القول: إن 
منهجية التعلم التحويلي هذه تتكون من ثلاث وحدات: 


)١‏ وحدة الترميز المبدئي 

حيث يتم الاستعانة بالنماذج الأساسية في عمل ترميز أولي للتعبيرات 
الاسمية5لاءووهط ٠‏ وفي هذه المرحلة يتم الحصول على مجموعة من 
التعبيرات الاسمية المُرشحة. وتكون مراحل الترميز كما يلي: 

يتم تسجيل رتبة كل كلمة من محتوى النص على النمط "' كما تُسَجّل 
لكل كلمة علامة التصنيف النحوي الخاصة بها على النمط ©: وبذلك يتحول 
النص المٌدخل إلى سلسلة العلامات التالية: 


بر ؟ | برنظل_بر أ بتار | رسا ايكونل 1 أ إلا 
إذا كانت مثل هذه القاعدة غير السياقية موجودة ضمن الأنماط 


الأساسية فإنه يتم التعامل مع سلسلة الكلمات على أنها تعبيرة اسمية على 
النمط التالي: 


معدو ج, رل..., ا 


بالإضافة إلى وضع ترميز : 5 لعناصر تلك السلا ل أ رار أبلقا 
على أنها تعبيرة اسمية طالاعووط. على سبيل المثال: 


ش ل ارا لاص يرلل عقن ا الك غود بره 


1 


٠‏ / ء ت لاع لايم | 89جات و1 
1د ) 


التجهجمهمدا 
ات 1 


.ففي المثال السابق» نجد أن الخطوط الأفقية لسك لح ايه 
إلى ست سلاسل لتعبيرات اسمية 35602 منتخبة» ولم يس يستقر منها بشكل 
نهائي إلا على التعبيرتين الموضحتين في المثال. 
؟) نماذج قواعد التحويل 

كل نموذج من نماذج قواعد التحويل يتكون من عنصرين رئيسين» 
أحدهما يختص بخطوات التحويلء والآخر يختص بتحديد نقطة البداية. 
فبالنسبة إلى خطوات التحويل يتم من خلالها تحديث نتيجة الترميز يز التي تمت 
على النص سابقا. إن خطوات الترميز في هذه المرحلة ت تهتم بالنظر في ثلاثة 
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عناصرء أولها علامات الترميز التي تم وضعها للتعبيرات الاسمية المرشئحة 
في الخطوة السابقة» أما ثانيها وثالثها فيختص بتأكيد الرموز المستخدمة أو 
رفضها؛ وذلك وفقَا للخطوات التفصيلية التالية: 
(أ) خطوة التحويل الأولى: وضع علامة قبول أمام علامات الترميز 
المُرشحة لسلسلة الكلمات /98. 


(ب) خطوة التحويل الثانية: وضع علامة رفض 9 علامات الترميز 
المُرشحة لسلسلة الكلمات الا. 

(ج) خطوة التحويل الثالثة: رفض علامة القبول لسلسلة الكلمات /8ا. 

(د) خطوة التحويل الرابعة: قبول علامة الرفض لسلسلة الكلمات 989. 

: وتتوقف شروط تنشيط قواعد التحويل على الكلمتين السابقتين للسلسلة 
الكلامية بالإضافة إلى الكلمة اللاحقة لها. وهذه الكلمات المجاورة للسلسلة يتم 
النظر إلى تصنيفها النحوي وحقلها الدلالي وعدد مقاطعها الصوتية وما إلى 
ذلك من الخصائص؛ وفي الوقت نفسه يتم النظر بعين الاعتبار إللى نمط 
التصنيف الذي تنتمي إليه سلسلة الكلمات موضع المعالجة. ولمزيد من 
التفصيل نورد فيما يلي عدد ال١٠‏ شرطا المستخدمة في تنشيط قواع د 
التحويل: 
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:-(50_م)05م2 : 
1 (رم)205, 
1 (-_م )2035 
ك > (_م)نادلاانات : 
(2) مك5 , 
ى-<(2-ث8م) 51 
+« > (رم !5 
و - (رص) 505.طاقف, - (رم)205, 

> (رم)505.الة.,؛ - (ررم)205 , 

ب > (ررم)515/لتاى. الف ,؛ - (رم)05م2 

:> (رم)ك0ط .الف .م - 21د , 

+ - ررم )05ص .الف - ( 5120117 ش 
ع زيم )05ص .الف .م - ( 52017 ّ 

وا ((/17) /811) ١.0205‏ - (ر_م )03م 

> ((/1/1201) 0ط .رطافف. , - (رم) 05, 
وى > (( 1/7077 ط8) 1 5ااعاذ. اقلق ,د - (رم) 6 

.اللف. رك - رر_«م)اطذلاط .للف .: - (ر, م )205 

وى - ((/1) /815010) 520/5 

م - ((0/07) الاك «اله.رد - (رم )520/51 
.40 - (رر_م) 41/52/51 .: - ررم) وم 

رى - ((/150/2)1) :580/51 
رى - ((5150/515)150/507.طالف. رد - (رم )581/51 


حيث تشير 1 فيما سبق إلى سلسلة الكلمات المٌرشحة؛ التي تخضع 
لعملية المعالجة» أما -7.-7/:7 فتُشير كل منها على التوالي إلى الكلمة 
د تسبق السلسلة بمكانين» والكلمة التي تسبق السلسلة بمكان واحدء والكلمة 
التي تلي السلسلة الكلامية 7[ أما ( )205 , (م)ط ث3 (ممالاى فش 
5 1 
النحويء والحقل الدلالي» وعدد المقاطع الصوتية على التوالي؛ هذا بالإضافة 
إلى أنه يتم استخدام رموز الحقل الدلالي وفقًا للتصنيفات الدلالية الكبرى 
والوسطى والصغرى حسب ما ورد في معجم ((غابة المترادفات))0". 
أما(52017 فتشير إلى نمط التركيب النحوي الذي تنتمي إليه السلسة موضع 
المعالجة» وتشير كل من (281:017/017, (20/207 إلى الكلمة الأولى 
والكلمة الأخيرة في السلسلة على التوالي. وبالإضافة إلى ذلكء فإنه إذا كانت 
الكلمة التي في الموضع 7 قد انضمت لتعبيرة لغوية اسمية فيتم ترميزها 
على النمط ال8 - (م )203 , 
وعلينا ملاحظة أن كلا من الحروف »و *» و5 في شروط تنشيط 
قواعد التحويل السابقة يشير إلى التصنيف النحوي للكلمة:» "وعددٍ المقاطع 
الصوتية؛ ورمز الحقل الدلالي على التوالي» ويتم وضع تلك القيم من خلال 
التدريب العملي على نصوص فعلية. لذلك» فإنه قبل إقرار تحديد هذه 
المؤلفات المعجمية بشنغهاي» وكان الهدف الأساسي من تأليف هذا المعجم جمع أكبر 
عدد من الكلمات المترادفة وإتاحتها للعاملين في مجال الترجمة والتأليف باللغة 
الصينية. (المترجم) 
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المتغيرات تظل قواعد التحويل قيد انتظار التقييم. وتحدّد مجموعة قواعد 
التحويل تلك مجموعة الاحتمالات الممكنة الخاصة بعمليات التحويل؛ وهذا ما 
يُطلّق عليه فراغ قواعد التحويل. والهدف من تعلم عمليات التحويل واكتسابها 
هو تحديد قائمة المتغيرات الخاصة بأنماط القواعد النحوية وذلك من خلال 
ذخيرة تم ترميزها اعتماذًا على العنصر البشريء الأمر الذي يُحَول تلك 
القائمة إلى قواعد تحويلية يمكن تنفيذها من خلال برمجية حاسوبية. ولذلك., 
فمن الضروري هنا أن نميّز بين مفهومين مختلفين» الأول يخص نماذج 
القواعد المستخدمة في التحويل» والثاني هو قواعد التحويل نفسها. 


"') مُتواليات!') التقييم 

حتى يمكن اختيار قواعد التحويل الأفضل بالنسبة إلى نتيجة ترميز 
الذخيرة التجريبية» تكون هناك حاجة إلى وضع متوالية للتقييم يُمُكنها وضع 
درجات تقييمية لقواعد التحويل التي يتم التوصل إليها. فعلى فرض استخدام 
قاعدة تحويل ما يُرْمَرز لها بالرمز” في النص الذي يخضع للمعالجة حالياء 
فإذا كانت نسبة دقة التمييز التي تم التوصل إليها من تطبيق هذه القاعدة على 
نص آخر أعلى ما يمكنء فإن هذه القاعدة تأخذ درجة تقييم مرتفعة» بالإضافة 


(1) استخدمت كلمة ” متوالية" هنا للإشارة إلى ما يقابل كلمة ,0110لا في اللغة 
الإنجليزية» وتَعْنْي في علوم الحاسب حزامّة من الأوامر تكتب بلغة برمجة وتُذمج مع 
برنامج متكامل للقيام بمهمة معينة» وعند استدعائها يتم تنفيذ محتواها من أسطر 
البرمجة بشكل تراتبي لتنفيذ المهمة التي صمّمَت من أجلهاء وقد ارتضيت هذه الترجمة 
بدلا من كلمة "وظيفة” »أو "روتين فرعي *" المستخدمتين في هذا المجال» »أو "دالة" 
المُستّخدّمة في مجال الهندسة التحليلية. (المترجم) 
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إلى ترقيتها لتنضم إلى القواعد المستخدمة في التحويل حاليًا. وبعبارة أخرى؛ 
إذا أدت قاعدة التحويل ” إلى تعديل علامات الرفض الموجودة في النص 
بعدد مرات قبول يصل إلى القيمة (2©»؛ وفي الوقت نفسه أَدّت إلى تعديل 
علامات القبول الموجودة في النص بعدد مرات رفض تصل إلى القيمة (207, 
فإن متوالية التقييم ستعطي درجة تقييم لتلك القاعدة من خلال المعادلة التالية: 
معادلة (ه-١)‏ 

خامسًا: طرق حساب القواعد الخاصة بتعلم الترميز 

الغرض من التعرف على العمليات الحاسوبية الخاصة بتعلّم الترميز 
هو محاولة عمل توليد آلي لمجموعة القواعد السياقية التي يتم تنفيذها 
بالترتيب وذلك عن طريق الاستعانة بفراغ قواعد التحويل التي سبق التوصل 
إليها. ففي كل خطوة من خطوات العملية الحسابية» تقوم آلية التعلم 
باستعراض جميع نماذج التحويل التي تنطبق عليها شروط التنشيط» وتقوم 
بمسح نتيجة الترميز التي تم التوصل إليها واستبدالها بمحصلة الترميز 
الأخيرة» مع الاستعانة بمتوالية التقييم لوضع درجة لهاء واعتبار القاعدة 
التحويلية التي تُحرز أعلى النتائج هي القاعدة التي يتم التوصل إليها من 
خلال تلك الدورة؛ هذا بالإضافة إلى فهْرّستها حسب أولوية التوصل إليهما 
ضمن مجموعة القواعد المُحققة (القاعدة التي يتم التوصل إليها من خلال 
الدورة الأولي توضع في مقدمة المجموعة:» والقاعدة التي يتم التوصل إليها 
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من خلال الدورة الثانية توضع في المركز الثاني وهكذا). وبعد ذلك» تحل 
| هذه القاعدة الجديدة محل علامات الترميز الموجودة في النص موضع 
المعالجة+ وهكذا يتم الحصول علئ ملف جديد» ثم الدخول في دورة جديحدة. 
وتستمر عملية التعلم على هذا المنوال: إلى أن تعجز الدرجات التي تَحقَها 
القواعد التحويلية عن الوصول إلى قيمة معينة يتم تحديدها سابقا. وكما ذكر 
آنا هرس القواعد التحويلية التي يتم التوصل إليها من خلال عملية التعلم 

حسب أولوية التوصل إليها؛ حيث تتصدر القواعد التي د يتم التوصل إليها 
مقدمًا القواعد التي تتحقق في المراحل التالية. فعند عمل .ترميز للتعبيرات 
الاسمية داخل نص من النصوصء ينبغي البدء باستخدام أنماط ترميز مبدئية 
لوضع رموز للنص بشكل مبدئيء ثم يتم استبدال تلك الرموزء واحدا تلو 
الآخرء بالقاعدة النهائية من مجموعة القواعد التحويلية 

ويمكننا تلخيص طرق حساب عملية تعلم القواعد التحويلية ية كما يلي: 

على فرض أن © ذخيرة لغوية لم يتم عمل ترميز للتعبيرات الاسمية 
«للوووط بهاء وأن 6© ذخيرة تم ترميز التعبيرات الاسمية بهاء وأن 75 هي 
مجموعة القواعد التحويلية مُرتَبة وأن مجموعة القواعد التحويلية تكون 
فارغة في البداية أي أن: 

75-0 

أولاً: يتم تطبيق نماذج الأبنية النَدُوية الأساسية للتعبيرات الاسمية في 
' عمل ترميز أوّلي للذخيرة ©؛ ومن ثم الحصول على نص مُرَمّرز يُشار إليه 
بالرمز © . 
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ثائيًا: تكرار الخطوات التالية إلى أن يُصبح من غير الممكن العثشور 
على قواعد تحويلية ”: وبحيث يمكن أن تكون ‏ 77<7)/ (حيث تشير 3 
إلى قيمة محددة سابقا). 
الدورة رقم 0 (حيث ...01,2 -م) 
)١‏ مقارنة “© مع 24: والبحث عن حالات الترميز الخاطئة "ا 
في 01 , . ٍ 
؟) التحرك انطلاًا من" في البحث داخل فراغ قواعد التحويل عن 
أفضل قاعدة للتحويل '7: وإعطاء ''”7 أعلى درجة تقييم كما يلي: 
0 يتهجم عع ع اثامر 
) إضافة ”'” إلى ذيل القائمة 75» بالإضافة إلى إحلال الم مكان 08:71 
' والحصول بذلك على ''©. 
سادسما: نتيجة التجربة 
انقسمت التجربة إلى الأجزاء الثلاثة التالية: 
)١(‏ الحصول على نماذج التركيب النحوي للتعبيرات الاسمية من 
)١(‏ الاستعانة بالأخطاء في تشغيل طرق حساب عملية التعلم للحمصول 
على القواعد التحويلية للتعبيرات الاسمية اعتمادًا على السياق. 
() الجمع بين كل من نماذج التركيب النحوي والقواع د التحويلية 
السياقية في تمييز التعبيرات الاسمية داخل النص. 


449 


وقد سبق أن قدمنا نتيجة التجربة للجزء الأول» وكان ذلك في النقطة 
(ه-") من الفصل الحاليء وفيما يلي نقدم نتيجة نتيجة التجربة للجزء الثاني والثالث. 
أولاً: تجربة الحصول على قواعد التحويل السياقية 

ل 

ا ا و 
على القواعد التحون يلية؛ حيث تم الحصول على إجمال 58١‏ قاعدة تحويل من 
ذخيرة تعلم يصل حجمها إلى حوالي خمسين ألف كلمة مع جعل القيمة 
المبدئية المُحَتّدة سابقا 7-0 . وفيما يلي نورد عدد عشر قواعد تحويل هي 
الأكثر استخداما: 


-١‏ تحويل علامة الترميز المرشحة إلى علامة ترميز مؤكدة: 


0 -(05)8ط .طقف [(0 -(ر_م) 203 برع إبن 


مثال: 
اع عاط لا وا ان ف 5/1 جع )31 ذا 
060/7177115/7٠ /‏ 
'وقّمَت تلك الشركة في العام الحالي عقدين للمقاولات مع 
رجال أعمال أجانب". | 
؟) تحويل علامة الترميز المُرشحة إلى علامة ترميز مؤكدة: 


1450 


17د ريط)2.2035طالة. أل - ررم )05ص عرزب 
مثال: 


7117/1 | يم 4/0 ا 
2 | زا 111/115 3/1373 


"... التأكيد على ضرورة الجمع بين قدرة الدبابات على 
المقاومة والدفاع...". 


") تحويل علامة الترميز المرشحة إلى علامة ترميز موكدة: 
”- (05)8ط.طاله.“ - (رم )05ص بوسر 
مثال: 


/-603) 22/312187 111 17و17 2ك ا اا 01716 /نانة ةذ 
انك "71 تج ] '"/ “15 كنار "71 ا ب 8 ] "م 
717/0511 0 لا ]105201 


"أصبح هذا النوع من القواعد النحوية أساس المنهجية 
الصورية التي تعتمد عليها الكثير من طرق الحساب التي تستمد 
مقوماتها من الجمع بين الخصائص اللغوية المعقدة". 
4) تحويل علامة الترميز المُرّشحة إلى علامة ترميز موكدة: 
2 - (رم )عط ذ عاد عسل 
مثال: 
لا )7517/11 1ن ]171/3202 7ل إاناج) ا ا يال 


"هذا النوع من الطقس يُطلّق عليه اسم طقس هل7. 
الاستوائي المُمطر...". ش 
©) تحويل علامة الترميز المرشحة إلى علامة ترميز موكدة: 


41 


605)8(-٠‏ .لفط - (رم)05ص2 ارود 


,174/17135010517 7/110[ ]ط/تةة 
'بعد انتهاء معركة شنغهاي...' 
*) تحويل علامة الترميز المٌرّشحة إلى علامة ترميز مؤكدة: 


ألا - (ر_م)ط كاماد اعاس 


11 22/110: ]20 311/7 00 0ج 7اعرجة/1)2[18 لبالا‎ ١ 
"العديد من المشروعات الخاسرة سوف تغير نشاطها...".‎ 
تحويل علامة الترميز المُرشّحة إلى علامة ترميز مؤكدة:‎ ) 
ش لا1-<(482.605)8. لط - زم )05ص بعرزها‎ 
مثال:‎ 


17 7777/1/01 21 1 
ِ )0ق 


"العديد من المناطق مُعَرضة لأمطار استوائية...". 
8) تحويل علامة الترميز المُرشحة إلى علامة ترميز مؤكدة: 
4 - ((51507517)80/2)7 للف 11 - (رم)ظكالظا5 تعاس 


مثال: 


052 


ل 17/1111 2/1 2 /ج 3/118 8/17119/17] 89/813 * 
ّْ و118/11/0114ج 60 


'أصدرت حكومتا الدولتين اليوم إعلانا مشتركا بإقامة 
علاقات دبلوماسية...". 
4) تحويل علامة الترميز المُرّشحة إلى علامة ترميز مؤكدة: 
(١ - 7‏ /17) 205)817 .0.4 - (رم )205 58 
مثال: 
[0118/17 127 ] 11ج الع 2 1 ل7ج )157/11 11/ لا 19/113 


"أصدرت حكومتا الدولتين اليوم إعلانا بإقامة علاقات 
دبلوماسية...'. 
)٠‏ تحويل علامة الترميز المُرّشحة إلى علامة ترميز مؤكدة: 
,ع ررم )482.203 02ع1 - (رم) اذ عاذ دعاس 
مثال: 
٠ |‏ [127/118836/176 2/1 02]197/1122ع.011/1 الظااقة ا 
"... تكوين نظام مُدْمج لمقاومة نيران المشاة". 
من خلال الأمثلة السابقة» يمكننا أن نلاحظ مدى صحة الاتجاه إلى 
استنباط قواعد التحويل من خلال طريقة التعلم من الأخطاء. فلو نظرنا بشكل 
مستقل إلى إحدى القواعدء فمن المحتمل ألا تكون صحيحة بصورة كاملة 
(مثل: القاعدة الموضحة بالمثال رقم ؟)؛ إن خطوات التحويل الخاصة بتلك 
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القاعدة لا يتم الاستعانة بها تمامًا في بيئة التتشيط المحيطة بها. إلا أن كل 
قاعدة يتم النظر إليها على أنها صحيحة من حيث قدرتها: على التطبيق 
والاستخدام» وأن نسبة الخطأ الضئيلة التي يمكن أن تنشأ من استخدام تلك 
القاعدة أو غيرها في الترميز يمكن تعويضها من خلال القواعد التالية لها 
(كما حدث في المثال رقم ). لذلك» فإن مجموعة القواعد بأكملها تكون 
مرَتّبَة والقواعد التي نَرِدْ في البداية تكون أكثر عمومية؛ أما تلك التي ترد في 
مؤخرة القائمة فتكون أكثر خصوصية. 
ثانيا: تجربة تمييز التعبيرات الاسمية 25»112ط 
تتمثل الخطوات التي تتبعها برمجية تمييز التعبيرات الاسمية طاللاعووط 
فيما يلي: 
)١‏ الاعتماد على نماذج التراكيب النحوية الأساسية للتعبيرات الاسمية 
في عمل ترميز مبدئي للنص موضع الترميز. 
”') عمل تحويل لنتيجة الترميز في المرحلة السابقة من خلال تطبيق 
القواعد التحويلية واحدة تلو الأخرى. 
علامتان أو أكثر أمام سلسلة الكلمات؛ مثل: 
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سلسلة الكلمات: 


جد أج#تدورة أجبهترة أرعتجة أ بعتي أ يديا / .5د 
الذرميز رقم 1 أ ! 


الترميز رقم 2 1 0 

ويتم الاحتفاظ بالترميز الأنسب وتّحذف العلامات الزائدة. 

وحتى يمكن أن يتم عمل دراسة مقارنة على عمليات تمييز التعبييرات 
الاسمية 556717» قام جاو جوين بتقسيم التجربة إلى قسمين؛ حيث يخبتص 
القسم الأول بنماذج التراكيب النحوية الأساسية للتعبيرات الاسمية» ومن نتيجة 
الترميز في هذا القسم يمكننا أن نستنبط الخطوط الأساسية (0856-1186) لعملية 
تمييز التعبيرات الاسمية 56118هط. ومن خلال القسم الأول يتم تنفيذ 
الخطوات "١١‏ من التجربة السابقة. أما القسم الثاني من التجربة فيجمع بين 
كل من نماذج التراكيب النحوية الأساسية للتعبيرات الاسمية والقواعد 
التحويلية السياقية» بمعنى تنفيذ خطوات التجربة السابقة "52١‏ على التوالي. 

وتنقسم التجربتان بدورهما إلى جزأين» الأول هو الاختبار المغلق» 
والثاني هو الاختبار المفتوح» ويصل حجم النصوص التي يتم إدخالها في كل 
من التجربتين إلى عشرة آلاف كلمة. إلا أن النصوص الخاصة بالاختبار 
المغلق يتم اختيارها من ذخيرة التدريب» أما النتصوص الخاصة بالاختبار 
المفتوح فيتم اختيارها من نصوص خارج نطاق ذخيرة التدريب. 
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وعند اختبار مؤشر أت الكفاءة لبرمجية تمييز التعبيرات الاسمية 
صلاعوق0 تم إقرار مؤشرين للقياس هما معدل الدقة م ومعدل التغطية 1 
ويتم حسابهما من المعادلتين التاليتين: 


معدل الدقة: 
6 
معادلة (ه-؟) 
معدل التغطية: 
6 
معادلة (ه-؟) 


حيدق تشيون © في المعادلتين إلى عدد التعبيرات الاسمية ملزهووط 
التي ميزتها البرمجية بشكل صحيح في النص موضع المعالجة» وتشير 8 إلى . 
إجمالي عدد سلاسل الكلمات التي تم الحكم أنها تعبيرات اسمية؛ أما © فتشير 
إلى عدد التعبيرات الاسمية الموجودة بالفعل داخل النص موضع المعالجة. 
ويشير الجدول ١7--‏ إلى نتيجة اختبار التجربتين: 1 
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جدول (ه-15١):‏ مقارنة بين الطريقتين المستخدمتين 
. في تمييز التعبيرات الاسمية 
: 


الطريقة التي تعتمد على الجمع 
الطريقة التي تستخدم النماذج ٠‏ بين النماذج الأساسية في 
الأساسية في التركيب النحوي | التركيب النحوي والقواعد 
نوع الاختبار التحويلية 
00 
الاختبار المغلق 9/0 90 0/000١‏ 2000701 
الاختبار المفتوح 50 #اررلامة | للا | 001 


من خلال مقارنة نتيجة التجربتين السابقتين» يمكننا ملاحظة أن نتائج 
الطريقة المختلطة التي جمعت بين النماذج الأساسية في التركيب النحوي 
والقواعد التحويلية قد تفوقت بوضوح على طريقة النماذج الأساسية في 
التركيب النحوي. 

. 3525 أ 5060 0 ب 5 5 5 - 

الاختبار المفتوح (الأجزاء المكتوبة بالبنط السميك؛ التي أسفلها خط تشير إلى 
خطأ في الترميز): 
| راج بجر عر 1 حفط / 122/1111 2417| 170 [ 1-1210 )انان ] 
7776 ]11 ع اخ 1771138 133/1103 171071/011/ 2 015 1/ تاق 1 ] اونا 
١ ٠١ ]18]141/107- 7/11/6711 ١ 153/7‏ 1-1631 ظ طكنا/ 8 ارمع 
١. 9‏ . 2/77 2522/1 ] 15 كنا 1ن 2/1711 32/1102 ار لك صاعلا 
انأ 6 15712 ١]‏ 1 1/0511 1لا ااا 1/311 ]1ت 
داعتا بق« 2 ١١‏ ,1/1117 2/1016 37/1076 35 ] ط/ تن لاق 2/210 285] تاطدنا 
]| 1/1311 375 / زات لآ]] 15 5نا/1[]8/ع2101]3/+ [5]م/ 3 / :18/1©[1-ل 
5/17] لها 19734821 ٠١‏ 1/1657 1/7117 21/110817 ]كنا أذ | 0 ا“الع1013/ 
١١ 1/1113/171117 5/0 49/10 ] 3515/75 3 4/1‏ + 171717/ 0511]8ا/ الم 


1357ل لز نط وم 5 ١1, ١‏ الت 17ج /تة ااانا لامعا ] /011 
١‏ 11/171 01 1/13/7007 [1/ 1 5ق 21/7 10711/01]48/ إالق الا 
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الفصل الثالتٌ 
نماذج إزالة اللبس الدلالي للكلمات الصينية 
اعتمادًا على الفراغ الدلالي للكلمات داخل التركيب 


إن المقصود بإزالة اللبس الدلالي للكلمات عومءة 5054) 
(ممتغددع نتطتددذ 03 هو معالجة الكلمات متعددة الدلالة حك يتم وضع كود 
دلالي لها وفقًا للمحيط السياقي الذي ترد فيه. وهذا الكود الدلالي قد يكون 
عبارة عن الرقم الذي يشير إلى معنى تلك الكلمة داخل أحد المعاجم العامة؛ 
وقد يكون عبارة عن كود التصنيف الدلالي لتلك الكلمة داخل أحد المعاجم 
الدلالية» أو الكلمة المقابلة لتلك الكلمة في معجم للترجمة؛ كما يمكن أن يكون 
شرحا لتلك الكلمة داخل أحد المعاجم المفهومية. وقد ساد لفترة طويلة اعتقاد 
أن موضوع إزالة اللبس الدلالي عن الكلمات هو أحد الموضوعات الصعبة 
في مجال معالجة اللغات الطبيعية. فقبل تسعينيات القرن الماضي كانت 
الدر اسات المتعلقة بإزالة اللبس الدلالي تعتمد على منهجيات الذكاء 
الاصطناعي بصورة أساسيةء وكانت الصعوبة في ذلك تكمن في حاجة هذه 
المنهجيات إلى العنصر البشري من أجل صياغة عدد هائل من قواعد إزالة 
اللبس: وسلبيات ذلك ليست ضئيلة. ليس فقط من حيث نسبة التغطية» بل إن 
هادر تلك المنهجيات كبير جدّاء وهذا ما أطلق عليه "عنق الزجاجة" في مجال 
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استخلاص المعارف من النصوص. وبعد تسعينيات القرن العشرين»؛ دخلت 
الدراسات المتعلقة بإزالة اللبس الدلالي عن الكلمات عصرا جديدا يتخذ من 
منهجية الذخائر اللغوية منطلقا أساسيّا؛ وذلك بسبب ظهور المعاجم الآلية 
والذخائر اللغوية هائلة الحجم. 

تعتمد منهجيات إزالة اللبس الدلالي عن الكلمات المُحتواة في معاجم 
إلكترونية بصورة كبيرة على النصوص الشارحة للكلمات داخل المعاجم 
العامة؛ حيث يتحقق غرض إزالة اللبس الدلالي لكلمة بمجرد حساب درجة 
تكرار النص الشارح لمعنى محدد من المعاني المتعددة لتلك الكلمة داخل 
النص موضع المعالجة؛ وذلك مثلما فعل العالمان ليسك (ناهءم1) وويلكقز 
(5لاة/18) والذي قَدّم كل منهما منهجيته الخاصة لإزالة اللبس الدلال 104.931 

إلا أنه عندما يكون النص الشارح قصيراء كأن يقتصر على سنرد 
الكلمة المضادة أو المترادفة مع الكلمة موضع التعامل» فمن الصعب العثور 
على معلومات تكرارية لمثل هذا النص الشارح داخل النص؛ ومن ثم يؤثر 


ذلك في نتيجة إزالة اللبس. وهناك طرق أخرى تعتمد على إزالة اللبس من: 


خلال استخدام معجم التصنيفات الدلالية. وفي هذا المجال تُعْتّبر الطريقة التي 
قتّمّها يارووسكي (808808512) هي الطريقة الأكثر تمثيلاً لهذا النوع من 
منهجيات إزالة اللبس الدلالي[105]. وقد اعتمدت تلك الطريقة عند حساب 
الكلمات ذات البروز الدلالي (ول05 غمءفادة) داخل النص على توزيع 


متوسط عدد مرات ظهور الكلمة متعددة الدلالة على كل تصنيف دلالي مقابل ' 


لتلك الكلمة؛ الأمر الذي تسبب في وجود ضجيج إحصائي؛ فضلاً عن 
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محدودية المادة اللغوية المستخدمة في رصد الكلمات ذات البروز الدلالي؛: 
ومن ثَمّ فقد كانت نسبة التغطية لهذه الطريقة محدودة جدًا. .. 


إن منهجية إزالة اللبس الدلالي اعتمادًا على ذخيرة لغوية؛ التي قدمها 
كل من يارووسكي (9غ1و«ه«ولا): وبروس (ععءنو8)ء وغيرهما[107,106] 
تعتمد بصورة كبيرة على الترميز الذي يتم من خلال العنصر البشري علئ 
ذخيرة تدريبية وهذا النوع من الترميز مُكلّف من حيث الوقت والمالء هذا 
بالإضافة إلى وجود مشكلة في النتائج الإحصائية تتمثل في خلخلة البيانات 
وعدم ترابطها؛ لذلك يسعى عدد من العلماء إلى بحث إمكانية التوصل إلى 
منهجيات لاستخراج المعلومات من النصوص اعتماذا على إزالة اللبس 
الدلالي غير الموجه (560جءمنقصت). إلا أن هذه المنهجيات ما زالت تقف 
حتى اليوم عند حد تجارب على نطاق ضيق لا يتعدى بضع كلمات أو بضع 
عشر كلمة متعددة الدلالة. وقد طرحت لي جوان تزي من جامعة تشين خوا 
نموذجًا لإزالة اللبس الدلالي اعتمادًا على الفراغ الدلالي للكلمات داخل 
التركيب. ونظر! إلى أن كل مجموعة مترادفات في معجم (غابة المترادفات) 
يقابلها كود واحد يمثل كل حقل دلاليء هذا بالإضافة إلى أن المجموعة 
الواحدة من المترادفات تحتوي دائمًا عددًا قليلاً من الكلمات متعددة الدلالة 
وكمية كبيرة من الكلمات أحادية الدلالة. ولذلك فمن الممكن أن نستخرج من 
ذخيرة كبيرة الحجم مجموعة الكلمات الحقيقية التي تسبق كلمة مفردة من 
الكلمات التي تُكُون مجموعة كلمات مترادفة وتلحقهاء وإنشاء برمجية تقطيع 
آلية تتخذ من مجموعة الكلمات تلك كودًا للتصنيف الدلالي. ونظرًا إلى أن 
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هذا النوع من التعلم الآلي في اكتساب المعلومات الخاصة بإزالة اللبس 
الدلالي عن الكلمات غير مُوَجّه؛ ومن ثم فإن بإمكانه تقليل الكثير من 
الأعباء المالية التي. يفرضها تدخل العنصر البشري في عمل الترميز الدلالي 
للكلمات داخل الذخائر اللغوية. وقد أثبتت التجارب أن أنماط إزالة اللبس 
الدلالي تلك تتميز بنسبة دقة عالية في إزالة اللبس الدلالي عن الكلمات؛ هذا 
بالإضافة إلى أنها تتميز بإمكانية الانتقال في التطبيق عبر أنواع الننصوص 
المختلفة. وفيما يلي نقدم تعريفا بالبحث الذي قامت به الباحثة لي جوان تزي. 


١‏ - تعريف بمعجم (غابة المترادفات) 

اعتمد مؤلف معجم (غابة المترادفات)21"* (يُطّق عليه اختصار! (غابة 
الكلمات) في أثناء وضع التصنيفات الدلالية للكلمات على الكلمة كعنصر 
أساسي» مع الاستعانة برموز التصنيف النحوي لهاء بالإضافة إلى الاهتمام 
الشديد بالكثافة النسبية لموضوع الحديث. وهذا المعجم الخاص بالتصنيفات 
الدلالية قد قسسّم الكلمات من حيث المعنى إلى ثلاثة مستويات: مستوى 
التصنيف الأكبرء والأوسط والأصغرء وفي هذا الإطار قام بتقسيم الكلامات 
إلى عدد ١7‏ تصنيفا كبيراء وعدد 44 تصنيفا وسطاء وعدد ١478‏ تصنيقًا 
صغيراء ويضم التصنيف الصغير عدذا من الكلمات كعناوين يندرج في 
إطارها مجموعات الكلمات المترادفة» ويصل عدد تلك العناوين إلى 976 
عنوانا. 


. يَستخدم معجم (غابة المترادفات) الحرف اللاتيني الأول في شكله 
الكبير ككود للتصنيف الأكبرء يليه مباشرة الحرف الثاني في شكله الصغير 
ككود للتصنيف الأوسطء أما الكود الثالث والرابع في التصنيف الدلالي 
فشتَحْدَم له الأرقام العربية؛ حيث يشير كل منها إلى كود التصنيف الأصغر. 
والعناوين التي تندرج تحت التصنيف الأصغر يُسْتَحْدَمم لها أيضًا الأرقام 
العربية. على سبيل المثال الكلمة "2515" "إدراك"؛ كود التصنيف الدلالي لها 
هو "6815"؛ حيث يشير الحرف "0" في هذا الكود إلى التصنيف الأكهبر 
ويضم الكلمات التي تُعَبّر عن "النشاط النفسي" أما الحرفان "38" فيشيران إلى 
التصنيف الأوسط ويضم الكلمات التي تُعبّر عن "الحالة النفسية", أما كود 
التصنيف الأصغر فهو "6215©؛ وهكذا يتم التعبير عن ذلك في المعجم كما 


يلي: 


1882 2885 615 
...8ر42 روخ فق 31217 821512181151715 


725 ال104 +13 


أي أن الكود“6815©" يضم تحته كلمتان تعبر كل منهما عن عنوان 
لمجموعة من المترادفات هما "845" "انتباه", و"9*25" 'فهم". لذلك فإن الكود 
الدلالي الكامل لكلمة "2615" 'إدراك" هو 1501© وهذا لأن هذه الكلمسة 
وقعت في الموضع الثاني في قائمة المترادفات. 
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ونظرًا إلى أن المداخل الدلالية في معجم (غابة المترادفات) تتخذ من 
الكلمات المفردة وحدة لهاء فإن الكلمات متعددة الدلانة تأخذ أكوادًا مختلفة 
وفقًا لمعانيها. على سبيل المثال الكلمة "8474" لها ثلاثة مداخل دلالية في 
معجم (غابة المترادفات) كما يلي: 

)0( مادة تدخل في صناعة منتج. 

)١(‏ مادة مرجعية تدخل في تأليف كتاب أو مواد علمية يتم تقديمها 

بغرض الاطلاع. 
(6) تدم للكناية عن بعض الأشخاص الذين يصلحون لأداء مهمة 


معبنه. 


وهذه المعاني يقابلها الأكواد التالية على التوالي: "8206 "2117 
''8103. 

وفي أثناء إزالة اللبس الدلالي عن كلمة "#4884" يتم وضع الكود 
المناسب لها وفقا للسياق الذي يظهر معها داخل النص. 

وكما سبق أن أشرنا نجد أن منظومة ترميز التصنيفات الدلالية داخل 
معجم (غابة المترادفات) عبارة عن تركيب شجري كما يتضح من الشكل 


ه-5: 
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شكل (4-5): التركيب الشجري لمنظومة أكواد 
التصنيفات الدلالية بمعجم ((غابة المترادفات)) 


التصنيف الأكير (12) 
التصنيف الأوسط (94) 


التصنيف الأصغر (1428) 


التصنيف الأصغر انفرعي (38925) 


وفي الحقيقة» إن الكلمات التي ضمها معجم (غابة المترادفات) يضم 
عدد 50154 مادة موزعة ما بين الكلمات بشكل أساسيء بالإضافة إلى 
بعض التعبيرات اللغوية والأمثال والكلمات المأثورة. ويوضح الجدول رقم 
١5-5‏ توزيع الكلمات متعددة الدلالة داخل معجم (غابة المترادفات)؛ التي 
يصل عددها الإجمالي إلى 747١‏ كلمة وتشغل نسبة .90١4,8‏ والجدير 
بالذكر أن ما يقرب .من نصف عدد الكلمات أحادية المقطع؛ التي يصل عددها 
إلى 7174 كلمة بما يمثل 961,57 من العدد الكلي للكلمات التي ضمها 
المعجم (عدد ١8٠١١‏ كلمة)» هي كلمات متعددة الدلالة؛ وبالمقارنة نجد أنه 
من بين عدد 457378٠١‏ كلمة متعددة المقطع؛ يوجد نسبة ١,7١9,؟‏ كلمة متعددة 
الدلالة. ْ 
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جدول (ه-5١):‏ توزيع الكلمات متعددة الدلالة في 
معجم (غابة المترادفات) 


0 0 الكلمات . 
ل الكلمات المئنوية :ْ 
كلمات أحادية المعنى أهلاءة 9/01 :*“/ا":ة | 
كلمات متعددة المعنى ديك 52/01١‏ كلام | 
الإجمالي 4 07000١‏ مه 


إن درجة الصعوبة أو السهولة في مهمة إزالة اللبس الدلالي عن 
الكلمات يُمْكن أن تظهر من خلال استكشاف الذخيرة. فعلى سبيل المثال» قد 
نجد أن ما يقرب من 9957 من إجمالي عدد كلمات الذخيرة عبارة عن 
كلمات لها أكثر من معنى. وكما سبق أن أشرناء فإن التصنيفات الدلالية في 
معجم (غابة المترادفات) قد استعانت بالتصنيفات النحوية للكلمات» على سبيل 
المثال نجد أن التصنيفات الكبرى التي تشير إليها الحروف من 2-8 تندرج 
تحت تصنيف الأسماءء أما الأرقام والكلمات الكمية فتندرج تحت التصنيف 
الأوسط وتأخذ الحرفين ه«2: والحرف 7 يشير إلى.الصفات» أما الحروف 
من 3-7 فتشير إلى تصنيف الأفعال. لذلك فإنه بالنسبة إلى نص قد سبق 
تمييز حدود الكلمات به وترميزها من حيث التصنيف النحويء فإنه يمكن 
تمييز معنى عدد غير قليل من الكلمات متعددة الدلالة الوجوفايةرقيا 
للتصنيف النحوي لتلك الكلمات: وتشير البيانات الإحصائية أنه بعد إزالة 
اللبس عن التصنيف النحوي للكلمات»: انخفض عدد الكلمات متعددة الدلالة 
داخل الذخيرة من 5 إلى 9075, وقد قلت نسبة تواجدها داخل الذخيرة 


عدار 362 
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؟- التعبير عن فراغ المُتّجَهات في معجم ((غابة المترادفات)) 

'"يمكنك معرفة معنى الكلمة من خلال الكلمات المصاحبة لها", هذا ما 
قاله عالم اللغة فيرث (8:ة1'”!)8! عند وصفه لطريقة تمييز معنى الكلمة. 
ويّقصّد بذلك أن معنى الكلمة لا يمكن الاستدلال عليه إلامن خلال 
الاستخدام. وعلى هذا؛ فإن استطلاع السياق المصاحب لكلمة ما في كل مرة 
من مرات ظهورها داخل ذخيرة لغوية» يُمَكننا من الحصول على معاني تلك 
الكلمة من خلال العلاقات التصاحبية بينها وبين الكلمات الأخرى. ولا يقتصر 
الأمر على أن لكل كلمة مجموعة العلاقات التصاحبية التي ترد معها فحسب» 
بل إن الكلمة الواحدة تختلف مجموعة التصاحبات التي ترد معها كلما 
اختلف معتاها. 

ونظر! إلى أن معنى كلمة ما يمكن وصفه من خلال مجموعة الكلمات 
التي تظهر معها (باختصار علاقات. التصاحب)؛ لذلك فمن الممكن اس تخدام 
مُتّجّه متعدد الأبعاد في التعبير عن معنى محدد للكلمة. وقد قامت لي جوان 
تزى بتعريف هذا النوع من المتّجَهات بأنه مُتّجَهِ دلالة الكلمة. وبمزيدمن 
التفصيل فإن مُتجّه دلالة الكلمة يتكون من مجموعة من العناصرء وكل 
عنصر من هذه العناصر يمثله كلمة من الكلمات الحقيقية التي تتصاحب مع 
الكلمة متعددة الدلالة؛ ويمثل هذا المُتّجه أحد أبعاد الفراغ الدلالي للكلمة. 

وعند التفكير في متطلبات تنفيذ هذا المشروع؛ من المفضل تحديد 
"السياق" المصاحب لدلالة الكلمة على أنه مجموعة الكلمات الحقيقية التي تَرد 
قبل هذه الكلمة أو بَعدّهاء التي يُرْمَز لموضعها بالرمز 0» وعلى هذا فإن 4+ 
يُطلق عليها نافذة الاستقراء التي تنْتَخْدم في استطلاع التصاحبات اللغوية. 
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ونظر! إلى أن هذه المجموعة من الكلمات الحقيقية تختلف في قدرتها على 
الظهور في إطار الفلك الدلالي للكلمة موضع الدراسة» فإن هناك ضرورة 
لاستخدام وزن (561884) مُحدّد لكل كلمة حتى يمكن تمييز قدرة كل واحدة 
منها. وقد عرفت لي جوان تزي وزن الكلمات الحقيقية التي تمثل المُتجَهات 
الدلالية للكلمة على أنه احتمال تصاحب الظهور بين الكلمات الحقيقية :7 
ودلالة كلمة معينة 5 ويرمز لهذا الوزن بالرمز (:5:. ويبدو من ذلك أن 
وزن الكلمات المصاحبة لدلالة الكلمة (25:*8/ يمكن تقدير قيمته من خلال 
إجراء بعض العمليات الإحصائية على ذخيرة لغوية. 

ومن خلال التعديل السابق نجد أن كل عنصر من العناصر المُكوّنة 
لِسُتّجّه دلالة الكلمة 1 يمكن الإشارة إليه باستخدام احتمال تصاحب الظهور 
(.قام, أي إن (بد05” > 8 . لذلك؛ ففي حقيقة الأمر أن المُتَجّهِ الدلالي 
للكلمة يساوي قيمة حقيقية لمُتّجّه متعدد الأبعادء وهذا المّتّجّه الدلالي عبارة 
عن مجموعة المتّجّهات التي نون الفراغ الدلالي للكلمة» ويُطلق عليه أيضنًا 
اسم فراغ المُتَجّه الحقيقي متعدد الأبعاد. 

هذا ويعتمد الوصف السابق لمعنى الكلمة على مرجعية الفرضين 
التاليين: 

[الفرض الأول] إذا تساوت دلالة كلمتين» فإن ذلك يؤدي إلى تساوي 
الكلمات التي تتصاحب معهما في السياق النصي. وإذا استخدمنا المّتَجَه 
الدلالي في التعبير عن السياق المصاحب لهاتين الكلمتين» فسوف يكون هناك 
تقارب في المسافة بين الفراغ الدلالي لهما. 
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[الفرض الثاني] هناك عدد من الكلمات تتشابه أو تتقارب في المعنى» 
وهذه الكلمات تظهر كأنها انتلاف من النقاط المتجاورة من حيث قيمة الفراغ 
الدلالي الذي يمثلها. 

ومدى موثوقية الفرض الثاني يمكن إثباتها من خلال صفة التعنقد التي 
تتميز بها دلالات الكلمات» والغرض من ذلك هو اختبار مدى التطابق بين 
نظام التصنيف الدلالي المُتَبّع في معجم (غابة المفردات) وبين مجموعات 
الكلمات المترادفة (متقاربة المعنى) التي يتم الحصول عليها من خلال 
الفرض الثاني والذي يمثل صفة التعنقد للكلمات المترادفة والمتقاربسة في 
المعنى. وقد صمّمَت لي جوان تزي تجربتها كما يلي: يتم اختيار أي 
مجموعتين من الكلمات 8: 8 من معجم (غابة المترادفات)؛ حيث تمل كل 
منهما فئة دلالية أصغرء وبشرط أن تتساويا من حيث التصنيف النحوي» 
وعلى فرض أن كلا من 8©» و6© تشيران إلى قائمة الكلمات الكاملة التي 
تندرج تحت المجموعة 6: و8 على التوالي» أي أن: 

[ريك/!! ...ريا , ,11/4! - ,0 
[,8 ...8 /ا, ,هللأ - م2 

حيث تشير (11:--4:71 إلى كلمة أحادية المعنى في المجموعة 4 
وتشير (2771:71 إلى كلمة أحادية المعنى في المجموعة 8. ووففًا 
لمبادئ تكوين المّتّجه الدلالي للكلمات؛ يمكننا الحصول على المُتّجّهِ الدلالي 
لأي كلمة (5017 .من الكلمات سالفة الذكر داخل ذخيرة كبيرة الحجم. ثم يتم 
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إعادة تصنيف جميع الكلمات التي تقع في إطار مجموعتي الكلمات 
«6لا,6 > © من حيث مدى تقارب المسافة بين مُتّجَهاتها أو تباعدهاء وقد 
أظْهَرت نتيجة التعنقد أن مجموعتي الكلمات ©؛ و2© تحتويان 
66 6©, بالإضافة إلى أن ©2162 6» وإذا كانت كل من 26 
و2© متطابقتان لدرجة معينة مع كل من 2©: وه© فإن هذا يعني أن 
الفرض الثاني فرضًا صحيحا. 

عند استخدام طريقة حساب المسافات الأقصر السابق ذكرها؛ التي تتخذ 
الاتجاه من أسفل إلى أعلى عند إجراء عملية جمع التصنيفات» تكون البداية 
أن نضع الكلمات التي تندرج في القائمة ©؛ التي يزيد عدد مرات تكرارها 
عن مائة مرة في المجموعة © والمجموعة 2©» ثم نقوم بتكرار عملية جمع 
التصنيفات بالطريقة نفسها على الكلمات التي تكررت بعدد مرات أقل. 

وصل نطاق الذخيرة المُستَخدّمة في تجربة جمع التصنيفات إلى ؟ 
ميجا بايت. ويحتوي الجدول ١5-5‏ أزواج أكواد التصنيف الدلالي 
المستخدمة في التجربة» بالإضافة إلى معلومات عن معدل تكرار تلك الأكواد 
داخل الذخيرة. ويعرض الجدول ١5-0‏ نتيجة التجربة. وقد تم حساب معدل 
التوافق بين كل من التصنيف الدلالي للكلمات القائم على المُّتّجّهات الدلالية» 
وأكواد التصنيف الدلالي المستخدمة في معجم (غابة المترادفات) من خلال 
المعادلة التالية: ْ 
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عدد الكلمات المشتركة بين نتيجة التصنيف باستخدام المُتّجَّهات الدلالية 
حل اتوت وبين أكو اد معجم ((غابة المترادفات)) 
عدد الكلمات الكلي في القائمة © 
جدول (ه-١5١):‏ نماذج من أزواج الأكواد الدلالية 
المستخدمة في معجم ((غابة المترادفات)) 


وعدد مرات ظهورها في الذخيرة 


أزواج أكواد | عند الكلمات 1 العدد الكلي [ أكبر من أكبر من | أكبر من 
التصنيف | أحديةق | ١‏ ار 0 ١‏ 1 00 0 
لس د ْ 
1011113 13/7 55 6إ)*) 2/7/6 9/9 11/13 
19 10/6 05015ك3ظ2 2 4/5 ١‏ 5/6 20 
13 1001 12/17 15 02) 5/6 2/1/9 121/03 
07م 22015 0 )1 4/6 4/6 102/10 
12110010138 ف 26/07 117 0 5/8 02/11 23/010 
11 12ظ1 1/15 100101114 3/2 1 603 10/8 
2219238 1/004 009 20 3/1 4/2 1 5/5 
| 615/1120 | 67 20103 2/4 3/4 5/6 


حيث تعني "أزواج أكواد التصنيف الدلالي" في الجدول السابق زوج 
التصنيف الدلالي الذي يتم اختياره من معجم (غابة المترادفات)» أما 'عدد 
المفردات أحادية الدلالة" فيعني عدد الكلمات التي لها معنى واحد داخل قائمة 
المترادفات التي يمثلها كل كود من أكواد التصنيف الدلالي, أما "العدد الكلي 

ت" فيعني العدد التراكمي الذي يمثل مرات ظهور هذه الكلمات أحادية 
المعنى داخل الذخيرة: أما "أكبر من 75٠١‏ فتعني عدد الكلمات أحادية المعنى 
داخل كل تصنيف دلالي؛ التي يتجاوز عدد مرات ظهورها مائة مرةفي 
الذخيرة» والباقي من عناوين الأعمدة على القياس نفسه. 
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جدول (ه-15): معدل التوافق بين نتيجة التتصنيف 
وأكو اد معجم (غابة المتر ادفات) _ 


أزواج أكواد 1 أكبر من ٠٠١‏ | أكبر من | أكبر من ٠١‏ | متوسط معدل 

| التصنيف الدلالي | فرط 0 .دمرة | مرات 1 التوافق 2 
11_19 | لم 52ت 5 7 00 ا 0 
7 00 00 900 90 
أ رلاا 96‏ | 9/0/١ 90,١‏ ره 9/0 

| 615/120 يه | 00148 000 

11611/18103 00 ا | 9004 000 
0/0١ 901 / 000١ 0 1010113‏ 
9/0١ 9/0/1 0000 00006 001١-1-0‏ 
1181811111 | 60م | لق | 45,5 | 9/١“‏ 
موي سفت 1 9000 90000 اننا 

التوافقق__ | 8 6 


وتشير نتيجة التجربة إلى أنه: 

)١(‏ إذا نظرنا إلى التصنيف الدلالي للكلمات أحادية المعنى التي يزيد 
عدد مرات ورودها في الذخيرة عن مرة ا وفقا لقرب المسافة 
بين المّتّجَّهات الدلالية لهذه الكلمات أو بُعدهاء نجد أن ما يزيد عن 
من هذه الكلمات يتوافق تماماا مع معجم (غابة المترادفات) ؛ 
حيث وصل متوسط معدل التوافق إلى .9645,١‏ أما الكلمات التي 
تجاوز عدد مرات ظهورها 5٠‏ مرة: فقد كان من بينها أكثذر من 
98 يتوافق مع معجم (غابة المترادفات)» وقد كان متوسط معدل 
التوافق لهذه الفئة .903٠0,5‏ وهذا يعكس مصداقية الفرض الثاني. 


012 


(؟) إذا نظرنا إلى متوسط معدل التوافق بين نتيجة التصنيف الآلية 
وتصنيف معجم (غابة المترادفات)» نجد أن الكلمات التئ لها معدل 
تكرار أعلى تتفوّق بوضوح على الكلمات التي لها معدل تكرار 
أقل. والسبب في ذلك يرجع إلى أنه كلما زاد عدد مرات ظهور 
الكلمة؛ أصبحت البيانات الإحصائية أكثر مصداقية» فضلاً عن 
اقتراب مؤشرات المُتّجَهات الدلالية من الواقع؛ وبالطبع يزداد 
متوسط معدل التوافق مع معجم (غابة المترادفات). 

() وبصورة عامة» فإن نتيجة التصنيف الناتجة عن أزواج الأكواد 
التي تنتمي إلى تصنيفات دلالية كبرى مختلفة تكون أفضل من 
نتيجة التصنيف لأزواج من الأكواد تنتمي إلى تصنيفات دلالية 
كبرى متشابهة» على سبيل المثال: 8206/9819 أفضل من 
7 وهذا يدل على أنه كلما زاد التباين بين أكواد 
التصنيفات الدلالية في معجم (غابة المترادفات)؛ بَعْنَت المسافة بين 
الفراغ الدلالي للمتجهات الدلالية التي تمثل هذه الأكواد؛ ولذلك فمن 
السهل الحفاظ على مقدار من التوافق بين نتيجة التصنيف الآلية 
وبين تصنيف معجم (غابة المترادفات). وما ينبغي التأكيد عليه هو 
أن المرجعية التي اعتمد عليها معجم (غابة المرادفات) في وضع 
أكواد التصنيفات الدلالية التي تصنف مجموعات الكلمات المترادفة 
هي الرؤية الذاتية أو الحس اللغوي لعلماء اللغة؛ أما تكوين 
المُتّجّهات الدلالية للكلمات فتعتمد على تصاحب الظهور بين 
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الكلمات داخل النصوص؛ بالإضافة إلى أن ذلك يتم من خلال 
استقراء ذخيرة نصوص ذات نطاق واسع؛ وهذا يشير إلى أن 
المنهجيتين مختلفتين بشكل كلي. إلا أن نتيجة التصنيف الدلالي التي 
توصل إليها الحاسب الآلي عن طريق قياس المسافة بين المُتّجَّهات 
الدلالية للكلمات كانت متطابقة إلى حدٌّ كبير مع نتيجة التصنيف 
الدلالي لمعجم (غابة المترادفات). وهذه الحقيقة تشير إلى منطقية 
الفرضين اللذين قدمتهما لي جوان تزي عن الوصف الدلالي 
للكلمات» هذا بالإضافة إلى أن الحس اللغوي لعلماء اللغة يمكن 

قياسه عند حدود معينة. 
وخلاصة ما سبق أن أية مجموعة من الكلمات المترادفة دائمًا ما 
تحتوي عددًا من الكلمات أحادية الدلالة» وأن استخراج الكلمات الحقيقية التي 
تتصاحب مع هذه الكلمات أحادية الدلالة في ذخيرة واسعة النطاق أمنّ يمكن 
تحقيقه آليّا بعيدَا عن تدخل العنصر البشري بصورة كاملة. إضافة إلى ذلك 
ووفًا للفرض الثاني» فإن مجموعة الكلمات المترادفة (أي تلك التي يكون لها 
كود دلالي واحد) دائمًا ما يمكن استخدام مُتّجّهِ دلالي واحد يشير إليها. وهذا 
المتّجّه الدلالي هو مركز المتَجّهات التي توضع لجميع الكلمات أحادية الدلالة 

في مجموعة الكلمات المترادفة. 
لحرح ارخ او روا الى لقا تر را 
الحقيقية المصاحبّة؛ .التي يُشار ليها بالرمز 5 >1٠‏ 7:0؛ حيث تشير 7 إلى 
عدد الأبعاد التي تَمَثل فراغ المُتّجّه. فعلى فرض أن 4 تشير إلى الكلمات 
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أحادية الدلالة الموجودة في مجموعة كلمات مترادفة» فإن القيمة الموجودة في 

المُنّجّه الفرعي © يمكن حسابها من خلال قيمة المتوسط الحسابي لمجموعة 

احتمالات (::2017 بي الكلمات أحادية الدلالة والكلمة 7» كما يلي: 
بين جميع و 


( ,سام 17 
0 1 


حيث تشير |4! إلى إجمالي عدد الكلمات في قائمة الكلمات أحادية 
الدلالة 4: أما 1 فتشير إلى أية كلمة في القائمة 4. 


وقد قامت لي جوان تزي بتكوين مُتّجهات للتصنيفات الدلالية الصغرى 
في معجم ((غابة المترادفات)) من خلال ذخيرة حجمها 77 ميجا بايت مكوّنة 
من نصوص جريدة الشعب اليومية وقد قامت بتكوين فراغ دلالي من هذه 
المتّجّهات الدلالية. وقد كانت المسافة قصيرة بين المُّتَجَهات الدلالية للكلمات 
المتقا ربة في المعنى وسط هذا الفراغ الدلالي. ومن ثم؛ تكوّنت متجهات 
دلالية عير عن تلك الكلمات متقاربة المعنى؛ بالإضافة إلى أن هذه المّتجَهات 
الدلالية يمكن ضمها معًا لتكوين مُنّجَّهِ يُمثل طبقة دلالية معينةء وهكذا يتم 
تكوين فراغ دلالي للكلمات ذات تركيب متدرج كما يتضح من الشكل 6-5. 
وقيمة هذه الدراسة تكمن في أنها نقتم نوا من الصياغة المعلوماتية لكيفية 
إزالة اللبس الدلالي بطريقة حاسوبية؛ وهذه المعلومات الخاصة بإزالة اللبس 
من الممكن استخدام الحاسب الآلي في الحصول عليها آليّا من ذخيرة لغوية 
ذات نظاق متسع. ومن نَم يمكن تجنب الأعباء الهائلة التي كانت نَلّقَى على 
عاتق العنصر البشري في الماضي لعمل الترميز الدلالي للذخائر اللغوية. . 
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إن الاعتماد على هذا النموذج اللغوي في إزالة اللبس الدلالي عن 
الكلمات قد نشأ عنه اختصار عمليات تمييز معنى الكلمة متعددة الدلالة إللى 
خطوتين: الخطوة الأولى تتمثل في تكوين مُتّجّه للفراغ الدلالي للكلمة متعددة 
الدلالة وفقا للسياق الذي ترد فيه (عادة ما يكون هذا السياق جملة)؛ ثم يتم 
البحث عن المُتّجَهات الدلالية المقابلة لهذه الكلمة متعددة الدلالة انطلاقًا من 
الفراغ الدلالي لهذه الكلمة. ويتم الحكم النهائي على معنى الكلمة في السياق 
الحالي من خلال تحديد أقرب مُتجَه دلالي لمّتجّه هذه الكلمة. 

"'- نموذج إزالة اللبس الدلالي عن الكلمات اعتمادًا على الفراغ الدلاني 

للكلمة داخل التركيب 

يتكون هذا النموذج الذي بُسْتَخْدَم في إزالة اللبس الدلالي عن الكلمات 

انطلاقا من الفراغ الدلالي للتركيب من العناصر المُوَضتّحة بالشكل ه-5. 
وفيما يلي نشرح وظيفة كل عنصر من هذه العناصر: 

(أ) استخراج الخصائص: وذلك من خلال البحث عن الكلمات الحقيقية 
التي تتصاحب مع هذه الكلمة في كل مرة تظهر فيها داخل 
النصء مع اعتبار موقع هذه الكلمات والمشار إليه بالرمز 4 قبل 
الكلمة موضع البحث وبعدهاء مع اعتبار أن (7>-4)4؛ وهذه 
الكلمات الحقيقية التي يتم الحصول عليها يُنَظر إليها على أنها 
الخصائص المنتّخبة لهذه الكلمة. وهذه الخطوة يتم تتفيذها مرة 
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(ب) الاختيار بين الخصائص: وفقًا لمجموعة الأكواد الدلالية للكلمة 
متعددة الدلالة موضع البحث يتم تحديد الكلمات التي تساعد في 
الحكم على معنى الكلمة متعددة الدلالة؛ وذلك وفقا لقيمة درجة 
الحيرة (الإنتروبي) الذي يُعْبّر عن خصائص الكلمات المنتخبة» 
وتمثل هذه الكلمات مجموعة الخصائص الدلالية التي تتصف بها 
هذه الكلمة. على سبيل المثال كلمة "84#" هي كلمة متعددة 
الدلالة لها ثلاثة أكواد دلالية (8806/01:17/48103): فتتم مرحلة 
اختيار الخصاص وعمليات القياس التي تتبغها وفقا لهذه 
التصنيفات الدلالية الثلاثة. لذلك فإن هذه العملية هي عملية / 
تفاعلية في إزالة اللبس. ظ 

(ج) وزن الخصائص: بعد اختيار الخصائصء يتم حساب قدرة كل 
خاصية على التوصيف الدلالي للكلمة موضع البحث» ونتيجة 
ذلك الحساب هي وزن كل خاصية من هذه الخصائص. ومسن 
ذلك يتم تكوين مُتَجّه للخصائص الدلالية لكل تصنيف دلالي 
تنتمي إليه الكلمة متعددة الدلالة. 
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شكل (5-5): نموذج إزالة اللبس الدلالي عن الكلمات 
اعتمادًا على الفراغ الدلالي للكلمة داخل التركيب 


(د) التعبير عن الخصائص: وفقا لمجموعة الخصائص التي يتم 
اختيارها فيما سبق» يتم استخدام متجّه خصائص واحد للتعبير عن 
السياق الذي تتواجد فيه الكلمة متعددة الدلالة موضع البحث. 

(ه) حساب درجة التشابه: حيث تُحسب درجة التشابه بين مُتَجَه 
الخصائص للكلمة موضع- الدراسة والذي تم تحديده في الخطوة 
السابقة وبين مُتّجه الخصائص لجميع التصنيفات الدلالية التي تنتمي 
إليها تلك الكلمة. 5 

(و) تحديد معنى الكلمة: حيث يتم تحديد المعنى الحالي للكلمة من 
خلال التصنيف الدلالي الذي يحصل على أعلى درجة تشابه. فإذا 
لم يكن هناك مثل هذا التصنيف الدلالي» يتم التتصعيد إلى الففة 
الدلالية التي تنتمي إليها الكلمة» وإعادة عمليات إزالة اللبس إلى أن 
يتم التوصل إلى تحديد معنى الكلمة. ش 
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؛ - نتيجة تجربة إزالة اللبس الدلالي عن الكلمات 
قامت لي جوان تزي بتنفيذ هذه التجربة على ذخيرة نصوص إخبارية 
من (جريدة الشعب اليومية) وصل حجمها إلى ؟7 ميجا بايت. وفي أثناء 
التجربة تم الاستعانة بمادة لغوية ثنائية التصنيف. وكان الهدف من الاختبار هو: 
أ- التأكد من فاعلية الطريقة الحاسوبية سالفة الذكر في إزالة اللبس. 
ب- استطلاع درجة إفادة منهجية الفراغ الدلالي للكلمة داخل السياق 
في تمييز دلالة الكلمات. وقد استخدمّت لي تزى جوان الأسلوب 
التجريبي في اختبار كل من اللبس الكاذب واللبس الحقيقي للكلمات.' 
)١(‏ اختبار اللبس الكاذب في معنى الكلمة 
ما يُطلق عليه "اللبس الكاذب" هو "الكلمة متعددة المعنى" التي تنشأ 
معانيها من انتماء كلمة أحادية الدلالة إلى كودَيْن أو أكثر من أكواد التصنيف 
الدلالي. وباتباع طريقة إزالة اللبس التي نعرفها حاليّاء فإن من الممكن اعتبار 
تلك الكلمات أحادية الدلالة كلمات ذات تصنيف نحوي واحدء مثل: "لكلا" 
و" ا" من الممكن أن يُكونا معًا زوجًا من الكلمات ذات اللبس الكاذب 
"فاخا" ويكون تصنيف اللبس الخاص بهما كما يلي 18ع03/151ع11. 
| إن اختبار اللبس الكاذب هو أحد أنواع التجارب الحاسوبية التي 
تستخدم في إزالة اللبس (1992 .!2 )» 216 ,1992 ع2اناطاء5)؛ وهذا الاختبار 
من شأنه أن يُكلّل الجهد الذي يستغرق في تجارب الترميز الدلالي للكلمات. 
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ويُجِرَى بالتفصيل من خلال البدء بالبحث عن عدد المرات التي تظهر فيها 
كل كلمة من الكلمات التي تنتمي إلى اللبس الكاذب داخل ذخيرة الاختبار» ثم 
تَستَبتل تلك الكلمات بأزواج كلمات اللبس الكاذب. وهكذا فبعد إزالة اللبس 
الدلالي» يمكن استخدام ذخيرة الاختبار الأولى في حساب معدل الدقة في 
إزالة اللبس الدلالي. وبصورة عامة فإن استخدام هذه الطريقة التجريبية من 
شأنه أن يختبر مدى فاعلية أي طريقة في إزالة اللبس الدلالي. 

وينقسم اختبار اللبس الكاذني إلى نوعين: اختبار مغلق. واختيار 
مفتوح. . فالمادة اللغوية التي 3 تستخدم في الذخيرة ة المُغلقة يتم ختيارها من 
ذخيرة تجريبية؛ ا 00 اللبس 
الكانب بشكل عشوائي من الذخيرة. أما المادة المُسْتَخدمة في الاختبار 
المفتوح فيتم اختيارها من ذخيرة من التصنيف نفسهء ولكنها خارج نطاق 
الذخيرة التجريبية» ويتم اختيار ٠٠١‏ مثال لكل زوج من أزواج اللبس الكانب 
بشكل عشوائي. ويتم حساب معدل الدقة في إزالة اللبس الدلالي من المعادلة 
التالية: 

عدد الكلمات التي تم تحديد معناها بشكل صحيح 


معثل الدقة- 2< العدد الإجمالي للكلمات التي تحمل لبمئا دلاليًا كاذبًا داخل ذخيرة 
الاختبار 


ويَعِْض الجدول ١7-0‏ عدد خمس نتائج اختبار للبس الدلالي الكانب. 
وهذا لإثبات أن مْتّجَهات التصنيف الدلالي التي تتكون من كلمات اللبس الدلالي 
الكاذئب تتمتع بصفة الشمولء أما الجدول ١8-5‏ فيعرض عدد المرات التي 
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تظهر فيها كل كلمة من أزواج اللبس الدلالي الكاذب والفئات الصغرى التي 
تنتمي إليها داخل ذخيرة التجريب. وقد أظهرت نتيجة التجربة أن: 

أ- بالنسبة إلى متوسط معدل الدقة في إزالة اللبس الكاذب عن 
الكلمات» وصلت النسبة في كل من الاختبار المُغْلق والاختبار 
المفتوح إلى 9037,5: و9047,5 على التوالي. وهذا يدل علنى 
فاعلية نموذج لي تزي جوان لإزالة اللبس الدلالي اعتمادًا على 
الفراغ الدلالي للسياق المحيط بالكلمة» والطريقة التفاعلية التي 
استخدمتها في اختيار الخصائص كانت مناسبة. 

ب- هناك بعض أزواج اللبس الكاذب؛ وعلى الرغم من أن عدد مرات 
ظهورها في ذخيرة التجريب كان ضعيفاء فإن التصنيفات الدلالية 
الأصغر التي تنتمي إليها هذه الكلمات كانت تظهر بكثرة في ذخيرة 
التجريب» ومن ثمّ حصلت هذه الكلمات على نسبة دقة عالية في 
إزالة اللبس. ويبدو من ذلك أن البيانات الإحصائية التي يتم 
الحصول عليها باستخدام الكلمات أحادية الدلالة داخل الذخيرة» من 
الممكن أن تعكس بشكل أساسي الظروف العامة لتوزيع التصنيفات 
الدلالية داخل الذخيرة. 


(1) اختبار إزالة اللبس الحقيقي 


اللبس الحقيقي يشير إلى الكلمات التي لها تعدد دلالي حقيقي؛ حيث 
يكون من المهم اختيار جزء من تلك الكلمات متعددة الدلالة من بين 
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التصنيفات المختلفة للكلمات لإجراء الثجرية. ونظر! إلى أخ. هذه الكلميات 
متعددة الدلالة لم يسبق التفكير فيها عند تكوين نتجهات التتصنيف الدلالي» 
لذلك لا تتضمن تجربة إزالة اللبس الحقيقي اختبارًا مُغلقا. وتبقى معادلة 
حساب معدل الدقة في إزالة اللبس الدلالي كما أوضحنا سابقا. 

جدول :)١37-5(‏ نتيجة تجربة إزالة اللبس الكاذب 
أزواج كلمات اللبس معدل الدقة في الاختبار معدل الدقة في الاختبار ا 


الكاذب المغلق المفتوح 
1 5ك90 9409 
ا رع لك 910 825 
71 960 950 
جل 2 / مالا 9309 9200 

بط 1 9259 8760 5 
متوسط معدل الدقة 92925 ع 5926 


جدول :)18١-5(‏ إحصائية الكلمات التي تحمل لبسنًا كاذبًا 


عدد مرات ظهور . 
التصنيف الدلالي الأصغر 


2069 238 
222/63 001001010117أإ1ظ 
116/841 04 [1ط1 
2 اللا 20654 1253 
2 11 2249 
تشير نتيجة التجربة أن فكرة استخدام تكوين الفراغ الدلالي للكلمات أحادية 
الدلالة وفقا للتركيب الذي ترد فيه مع الكلمات الحقيقية داخل ذخيرة التجريب 


1211501 


2 


1111112 1-1-0 
117 1 


11118 
1110 
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متطقية. ومقارنة بمفيجية إزاقة الس دوق الأعضك على السياق تحد أن 


النموذج اللغوي الذي استخدمته لي تزي جوان يتمتع بمعدل دقة أعلى. وأهم 
ما في الأمر أن هذا النموذج اللغوي يتمتع بالقدرة على إجراء عمليات إزالة 
اللبس للكلمات على نطاق واسعء بالإضافة إلى أن هذه الطريقة في وصف 
دلالة الكلمات قد استخدمت من حيث المبادئ في لغات طبيعية أخرى غير 


اللغة الصهدية, 


جدول (ه-15): نتيجة التجربة المفتوحة في إزالة 


اللبس الحقيقي عن الكلمات 


1 
الكلمة 
متعددة تصنيف اللبس 5 
٠‏ لضششيقا 
١ 1 7‏ التجارب 
الدلاله 
1 11 1111103 701 
1 11116 2641 
اللاع3 2101109 7154 
22-1 3+ أ( 29073 
0 7 ظ21 902 
ا متوسط معدل الدقة 
ه - الخلاصة 


عدد مرات ظهور 
التصنيف الدلالي 
الأصغر داخل 
الذخيرة 
111113 
2311110115 
2201*003 
211 
11/010156 


معدل الدقة 

في إزالة 
اللبس 
807 
1000 
060 
26 
201 
211306 


(أ) إن نموذج إزالة اللبس الدلالي اعتمادًا على الفراغ الدلالي للكلمة 
داخل التركيب من- الممكن أن يُقلل أعباء العمل في الترميز الدلالي 
للكلمات أو بناء بنك معلومات ذي نطاق واسع حول إزالة اللبس 


الدلالي عن الكلمات. 
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(ب) بالنسبة إلى الفراغ الدلالي للكلمة داخل التركيبء فإنه كلما 
انخفضت قيمة مُتّجه التصنيف الدلالي» عبر ذلك بصورة واقعية 
عن أحوال توزيع التصاحب للكلمات المترادفة داخل ذلك التصنيف 
الدلالي؛ ومن ثم يرتفع معدل الدقة في إزالة اللبس الدلالي. ومن 
المقترح أن تقتصر مستويات إزالة اللبس بهذه الطريقة على 
المستويين الثالث والرابع (أي التصنيف الأصغر والأصغر الفرعي 
بمعجم (غابة المترادفات). ش 

(ج) إن جودة نتيجة إزالة اللبس الدلالي أو سوءها تتوقف على 
الخصائص النحوية للكلمات متعددة الدلالة. فبصورة عامة نجد أن 
نتيجة إزالة اللبس الدلالي عن الأسماء أفضل منها بالنسبة إلسى 
الأقعال والصفات. وإذا تحدثنا عن الأفعال نجد أن نتيجة إزالة 
اللبس عن الأفعال متعددة الدلالة التي تقترن بمفعول به بسيط أفضل 
منها بالنسبة إلى الأفعال التي تقترن بمفعول به مركب (مثل 
المفعول به الجملة» والمفعول به المحوري الذي يشغل وظيفة 
المسند إليه بجانب كونه مفعولاً به). 

(د) كما أن نتيجة إزالة اللبس الدلالي تتوقف على تصنيف اللبس بالنسبة 
إلى الكلمة متعددة الدلالة» فكلما قلت المسافة بين الفئات الدلالية التي 
تتبعها الكلمات متعددة الدلالة» ضعفت نتيجة إزالة اللبس. 

إن بناء الفراغ الدلالي للكلمات انطلاقًا من السياق المصاحب لها 

اعتمادًا على ذخيرة كبيرة الحجم؛ يتناسب من حيث المبدأ مع معالجة أية 
كلمة حقيقية متعددة الدلالة» هذا بالإضافة إلى إمكانية تطبيقه مع أي لغة 
. أخرى غير اللغة الصينية. 
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قائمة الرموز المستخدمة في التصنيف النحوي للكلمات 


اسم 18 

اسم عام ©/7 

اسم علم شخصي 7/1 
اسم علم جغرافي .8/1 
اسم مؤسسة [21 
ظرف زمان 7 
ظرف مكان 3 
كلمة موضع آ 

فعل 7 

فعل مساعد ١74‏ 
فعل رابط 19٠7‏ 

فعل معبر عن الاتجاه 770 
فعل الكينونة لا/آ 
فعل الملكية 7713 
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فعل مصدريي 7/17 

فعل مصدري متعدٌ 7/1111 
فعل مصدري لازم 7/20 
أفعال عامة 1١7©‏ 

فعل ذو مفعول مفرد 7©11 
. فعل ذو مفعول مركب 707 
فعل لازم 560 

صفة 4 

كلمة حالية 2 

تمييز 8 

عدد 31 

عدد أساسي 713 

عدد ترتيبي 1126 

أعداد أخرى 7146 

كلمة كمية © 


كلمة كمية للاسم 710 
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كلمة كمية للفعل 17© 

د 7 

حرف جر 8 

ظرف 7 

حرف عطف © 2 

حرف عطف متم 7© 
حرف عطف أوسط 1731© 
خوق عطلك موعر 27> 
كلمات مساعدة [1 

الكلمة المساعدة "8" 10151215 
الكلمة المساعدة "إل" 115121 
الكلمة المساعدة "78" 511511 
الكلمة المساعدة "98" 11551 
الكلمة المساعدة "89" 115510 
الكلمة المساعدة 2" 115213 


كلمة مساعدة مُعبّرة عن الزمن '101 
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كلمات مساعدة أخرى غ103 
كلمات اللهجة لا 

الكلمات المعبرة عن الصوت 0 
كلمة تعجب 1 

سابقة 13 

لاحقة +1 

متل 1 

اختصار 3[ 

تعبيرات شائعة .آ 

أخرى 3 

سلاسل الرموز غير الرموز الصينية 30013 


علامات الترقيم (كل منها يمثل تصنيفا مستقلا) 
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فهرس المصطلحات الواردة في الكتاب 


عربي - صيني 
احتمال التحول _لإالاتطوطمعم مم ازعمدى - 1721535 
احتمال الظهور 11ل 
إحصاء معدل تكرار الكلمات ا 1ك اك لق 
اختبار زد 2-0 - 20:18 2 
0 دة إلا 
د 55 5701 : لاا لا زم 
زالة الليس الد 
إزالة اللبس الدلالي ((81/51) ممنغقنء تطتسوواطم 
إزالة اللبس الدلالي غير الموجه لل 8111 2 20113 
استقراء التوزيع الدلالي للكلمة : : 0 ها كم زقلا 
أسلوب الكتابة عآلا]5 عمتاتاب - 2 
اكتساب اللغة 0 أنانع2 عع 2ناع دا - 19[ 5 كز 
الإحصاء الكمي 15 ع7الأم مونو - 51251 2 
الاختبار المغلق أتزلاال 011 زض 
الاختبار المفتوح ٠‏ أتة ال 201 
الاختبارات الإحصائية : خلال م21 
الأداء اللغوي 611013 356نا8 130 - 18 195 5 15 . 
الاستعلام طعموء؟ - |25 
5 الإخصاني النبالي عن عم ةلع مه - 12/25 
الاستعلام بالكلمة ١‏ ماعمدع؟ 00 - 2 15192 زان 


الاستعلام بالنص يت طأعقةع؟ العا - 12153 


40١ 


الاستعلام عن كلمة مفتاحية داخل | ]غا01© 18 7050 /إعع1 - |9 125 101[/5 82 26 


السياق طعهوء5 
الاستفهام لماعي 
الاستقراء 1 
الأسلوب التفسيري 17١‏ 1لا 1 
الأسلوب الجدلي ْ 10 1 1 1 
الأسلوب السردي 1د 1 1 
الأسلوب الوصفي 7 11 
الأسماء للموضولة 7 م0 - [5//15 2 
الأفعال التي لها سمات خاصة 1 
الأفعال المتصرفة 11 [/2 2 | 
الانحراف المعياري هناد باعل لتدقصماك_- 22 1/ غافكرة 
الأنواع النحوية للمفردات 1 11 
التحليل الرياضي ارت 1 
التحليل الكمي زولا لم388 نالأ سقنان - 227177 انز 
التحليل الكمي للغة عوقناومة! عالأماهدنو - 2717 26155 انآ 
15 5ط221 

التحليل متعدد الاتجاهات ك1 [ههه كمع جص أل - اتاد - 017 :20 22 
0 5 مومع -معله 1 - 112181311 
التداخل المعجمي النحوي ١‏ 0 ْ : مسرعة 
0 المختصرة والتي يدر 14 إن اتج 18121117107 
الترتيب المُفهْرس للأسطر 2 1ن 1 
الترجمة الألية صمناماكمدعا عمتطعدم - عخا ل عمال 
الترميز . 1 - 1111 
التصاحب 10 - 110 
التصاحب الأيسر ال 1 
التصاحب الأيمن 11 1 
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التصاحب الحر 

التصاحب اللصقي 
التصاحبات 

التصاحبات شائعة الاستخدام 
التصنيف الضبابي 

التضارب الدلالي 

التعبيرات الاسمية الأساسية 
التعبيرات الظرفية 
التعبيرات الوصفية 

التعداد 
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ذخيرة لغوية مميكنة  -‏ 0ع12ع]ناممطامح 
001015 
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15 اق 
لاله 
2 


لز 5 زه 01 32 


| 225 ذإ ذ/ إانا 82 39 
0ل 7 

زاك 1ن ئاذ 
1 وفع 2 11012 
ا 

9 2 

252 

515 

16 

111 
11 
1 ا 112 
ا 
[247[2/[1/ 
007 

16 ا 
0 

16 8 ل |1 ا 


علم اللغة الحاسوبي 9 
15 111 متام 


الأسلوب السردي 


ذخائر لغوية لمراقبة التغيرات اللغوية -|”' 


015 11011101 
الفهرسة - 0201702206 

برمجية الاستعلام 
التراكيب المختصرة والتي ينذر استخدامها 
بناء الذخيرة - 60110188 5نام:مء 
ترتيب تنازلي 
سلسلة كلامية تحتاج إلى إزالة اللبس من خلال 
فصل تداخل الحدود 
العناصر المتداخلة 
سلسلة متداخلة 
طول سلسلة التداخل 
كلمات مساعدة 
تعبيرات الجار والمجرور 
المنهج التجريبي - م15أء11ذم ممع 
النزعة التجريبية - 52اء71أممدء 
معدل التكرار الثابت 
أنماط التركيب النحوي 
أنماط الجمل - 026:58 56016766 
الفصل الآلي لعناصر الجملة 
تقطيع على مستوى الجمل 
التعثقد 
المتوسط الحسابي 
الاختبار المفتوح 
فعل مصدري متعدي 
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216 ا 
10 
]| 

0 
0 


1 12 31 512174732 
21 له : 

ا11 تترعي] 

122لا زلا مك + 2 


-121 32 
داه 
311 ل كام 
اتا رل ق1 م2 
210 
ا 2213 

د لم2 

11 
61 
0ر6 

ريانم - ري :له كزان 
51-277 

و2 

الام 

ش71 
مالم ا اننا 


المستوى الشفهي من اللغة 
درجة التشتت 
علم اللغة النظري 2 - لهء1اع1601] 
1111 
المنهج العقلي - 18]102211552 
النزعة العقلية - 12010281150 
علم اللغة التاريخي المقارن -لهع15:051! 
1لا ١1‏ )3م0011 
كلمة كمية 
فرض ماركوف - 255010720108 1132101 
الأسلوب الرصفي 
مُحَدْدَات للوصف 
الصيغ الاسمية 
فعل مصدري . 
كلمة كمية للاسم 
التصنيف الضبابي - 1مع2]6ء '(22نا] 
محور التداخل 
طول محور التداخل 
درجة تحَيّز 
تكرار 
عدد مرات التكرار 
معدل التكرار - 156010626 
التوازن - 5213206 
مُتواليات التقييم 
معدل التكرار المتوقع . 
0ع نالوع 6061602 
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1218 
7 لج 
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11 و 
20/1 
نه ده 
لاك 
16 
عا 5 1 
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1 
21 
21 
ننه 
111 
ان 
جا لا 


تمييز اللبس 

المُكمّل المبين للحالة الشعورية 
الأفعال المتصرفة . 

مُحَدْدَات للتمييز 

فعل معبر عن الاتجاه. 

وزن -نغطعاء؟ 


معالجة اللغات الطبيعية - 2901211328286 أ ' 


100 

السياقات - 5)): 1216م 

المعلومات السياقية . 

قواعد التحويل السياقية 

ذخيرة لغوية خام - 5نامعم» 18197 

علامة الزمن والحالة 

كلمة مساعدة مُعَبّرة عن الزمن 

المستوى التحريري للغة. 

المتوالية المعبرة عن كثافة مخرجات الاحتمال 
- 0 االإاتومءطالز نلتطوطمط غتامان0 
10 

الفرض المستقل عن المخرجات -إنامالا0 
0 0م1106 

قاعدة بيانات - ع5ه02)35 

ملف البيانات - 1316 02348 

درجة ضجيج البيانات 

التحليل الرياضي 

الأسلوب التفسيري 

الاستعلام - داعروع5 

فهرس - ه120 

جدول مفهرس 
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22 
ددعلا12127 
تست ا 
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1 | ا 
شاك الت 
1 
2216 
لك 
585 ل 
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1 2 
2غ د 
11 لج ]8 
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12 117 19635 للا 320 


2 22 نذا 10 
تفلن 6 
هن 6 
2 
2 

1 1 
25 

5 
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برمجية فهرسة - «تتهمع 10م 0020103266 
الترتيب المُفهؤرس للأسطر 

الأفعال التي لها سمات خاصة 

تعليم اللغة للأغراض الخاصة 

أسلوب الكتابة - 16نز)5 1/1108 

المداخل اللغوية 

الاستقراء 

استقراء التوزيع الدلالي للكلمة 

اللواحق النحوية 

التوارد - 6ع1556اعع0-0© 

الذخيرة المتجانسة - 5نام1 501208626601050 
الاختبارات الإحصائية 

العلاقات التبادلية - 20151210821 

الكلمات ذات البروز الدلالي 

سلاسل ذات تركيب دقيق 

مؤشر 

درجة المؤشر - ع:مع5 0مخ1امءم 1ل 


اللبس الكاذنب 


رتبة النص 

الاستعلام بالنص - طعقهء5 )2ع) 

وسيط النشر 

تحويل النصوص المكتوبة إلى مكافئها الصوتي 
- مو زأكاء20017© 501020 10 اجزع) 

الدراسات الحاسوبية للأدب واللغة - بصهترء)1! 
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21 
5117111 
لتك 

حر ا 421 لسن 
5 1015 2 تخ 4 
1 

عع 

1 

007 [ها 15 إقا 
1 

لاما 

6 8 00 از [8] 
الا اناه 
27 

إقا 2 بم 
د 

43 

252) 

ا تلا و1 

ا يزلا 100 

16 

21 181572 
1 
24 
ات 


11-2 51 1 
1555 


نا نمطم عتأكاناع مدنا له 

إزالة اللبس الدلالي غير الموجه 

الأسماء الموصولة - 0112© 

الذخيرة المنظومية - 5نام:0ع5[:506502010 

مُحَدْدَات للتقبيد 

قوة الارتباط   -‏ عا 04 لطأعمعماد 

منطومه0هاع1 

نصوص إبداعية - )غزء) )9 مزع 2دمآ1 

المُتجهات - وزماعء 

الجمل المعلوماتي - الإنتروبي - مقياس درجة 

الفوضى - لآ[م12150© 1 

الضجيج المعلو ماتي 

التعبيرات الوصفية 

نظرية النحو الصوري - 0281.0تده5 

م01 

ذخيرة تعلّم 

العينات - 5ع1مدة5 

الكلمات متعددة الدلالة - بإمرع5:ز701 

الاستفهام 

الأسلوب الجدلي 

تحليل العرامل - 515/ز[808 120105 

بطاقات استشهاد ورقية - وم5[1م142)10© 

نموذج ماركوف الكامن - ( 1110068 

2) أعل1160 لمعأمد لز 

علم المفردات التطبيقي 5 
68ل الع ناممة 

التصاحب الأيمن 

علم النحو - نوتم سورع 

المعنى السياقي 
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2215 7 101 121 1 
3/151 
211111 

1 
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كالما 
ل 
1 15 
1 
1 
6 !8 21 الا 
ع1 
722 
لحاعه 
111 
2171 
5 


زه كر ظ و 
1811-5 لل نار 


ذخيرة لغوية - 5نام01© 

ترميز الذخائر اللغوية - م5]28818نام01© 
حماية الذخيرة اللغوية - . كنام1مء 
ع 021 

معالجة الذخيرة - ع55158ع20م 0115© 
تصميم الذخيرة اللغوية - م0651 05ام1م0 
علم الذخائر اللغوية - 5ع35]1ناع12! 5نام01© 
التمييز الآلي لكلمات الذخيرة 

كلمات اللهجة 

الشكل اللغو يي 

هندسة اللغة - ع111ع26أع 2ع ع8 2 ناع132 
النمذجة اللغوية - ع8 73200112 130810286 
القدرة اللغوية - 6]6706م2012 256 ناع 132 
الأداء اللغري - 761101103206 132811286 
اكتساب اللغة - 151)108نا0ع2 ع132538 
التضارب الدلالي 

التقارب الدلالي 1ك 

عدم الارتباط الدلالي 

علم الدلالة - 56112215 

تمييز الأصوات اللغوية 

علم اللغة التداولي - علم الاستخدام اللغوي - 
22215 

المستويات اللغوية - م©])15مع1 

تنوع المستوى اللغوي 

القيمة المبدئية 

قيمة الفرض المبدني 

اختبار زد - :2-520 

التصاحب اللصقي - 20122008مء 20ناهط 
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1 إن 

إنر مز 
دروي زان 32 1 
-1011 32 إارسز 
1 35 | 1 
1 2215 إذركر 
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15 
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125-25 
1 
152222 
ا 

الا 1 
1 

11 

1 12 1 
مم 

ال 
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124 


معدل الارتداد 

معدل التغطية 

اللبس الحقيقي 

لبنس حقيقي 

معدل التكرار الحقيقي - /إع72نا0ع17عن1” 
نصوص معلوماتية - غعرع) 121402202)496 
الحو اسيب الذكية 

الكلمة المركزية 

الاستعلام الإحصائي السياقي عن الكلمات - 
00210 

الجدول السياقي للكلمات - ( م1 8/050 نرعء! 
1) ام 1زم 

برمجيات الاستعلام عن الكلمات 

ملف سياقات الكلمات - 716 ععضدل معدم 
خصائص الإضافة 

الجملة الإسنادية 

المُسند إليه 

فعل مساعد - اوت ع0أماءطآ 

ذخيرة الاستخدام المتخصص - 50601211260 
5م01 

فراغ قواعد التحويل 

نماذج قواعد التحو يل 

النحو التحويلي التوليدي : 
26121217 لقصه 1 1كمةا 
11711 


احتمال التحول - )0502611 مهنا زومدئ 
كلمة حالية 

صيغة الحالة 

الحال 
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لا 11 
ل :ل 
111 
11/111 
101 86:1 8 
اتذاء 8 
21 


11 22 
2 
1 17 
انه ع رمد 
الما 2011 5 
32 

قا رلة رللا 

ع !151 8 11ج 
8ع إاالالالت 1 
1 اللا 11 


17511 عن ع1 جب 


معدل الدقة 

تحليل التركيب النحوي للجمل آليّا 

التمييز الآلي 

التوليد الألي للغات الطبيعية - ع2114011801 
م زءدعع ع28نا15ئة1 

درجةالحريّة 

التصاحب الحر - 2)100ض نط تتام ع116 
السلسلة ذات الطول: الأكبر في التداخل 
التصاحب الأيسر 
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قائمة المراجع 


اح 0 د 520112810792 5 181118185 .18126 1 [1] 
1٠‏ ,1998 
دينغ شين شان؛ “علم الذخائر اللغوية.. مراحل التطور وواقع البحوث 

الحالية”» مجلة (( علم اللغة المعاصر))ء العدد الأول» .١9434‏ 

(أوآناطضال2 ,5ط ]أأ5أناودمنا 5لاصمنارة .ممداثلالا,1" ,مهمع 846 [2] 
رؤ5وواط بإأأواعة لاملا 

.0 ,1991 والطجعالضة وكام ما روص امم مءأأذذاب58 ,نا ,لهأوبتم0 [3] 
221-38 

9 ,لهأأعاممم 016 لاعلا ,لالط 3 أه لصلانطا معط ,لاا ,معبروعط [4] 

010 5وع/ نأك 15 صن لمهطلالطن لزلدع أه لإووامطعلازوط ,.مرع:51 [5] 
4 01 عارملا بناعلا رعوم 

مأ ر5أععم05:م لمة 5مة اط 1م-5نام001 6 له رؤ5أعصوظ .لم [6] 
ا ::0/ الاعلا .192-209.مم ,1980 .31 أ لاناقط-مع316) 

كأ 5/3 أ ركوطاطا ولتأأنام أه ذلزه/لا لعمواعر2 ,لإالعصمعكا .6 [7] 
-335.مم ,1992 

هط 10 ومألأعنالم لصا مث :طذذتاومع أ0 عالاأعرماه مط1 ,ؤهلم2 .0 [8] 
-]انامع:ة3! ا :كأزولا الاعلطا رقع16206مة5 أ0 لامأاعناناة م00 


:6او3 158 ,5عالاأعنا51 ماأعهاملاك .لط ,لإكاومصمط © [9] 
07لا 


315 


وأ اأطمطمرط لقق 5غألنةأ5 كنامره0 .2( .م .ا ,لإولأاله! [10] 
.43 -30.مم ,1991 ,وتعطمعلام لمة عللالوزاة مأ ,1 للللة1 0 


مماناماا :طلاقعء8 ركع أأدأناودنا 5ناط:ه© دأ 05م1أ60ز0 ,كاأ/ 5 .ل [11] 
002 لان 06 


عأأذااأطوطهرط لصة 500165 كنامه00 > الث .ا ,/مو10ااةل [12] 
,.30-43.مم ,1991 ,ونءطرعأام لمة عع مزل مأ ,لقلكلكة )0 


ر165أوأناومنًا مؤألأ/اة01 00ج عتعأنام ممه ع1 ,.ث,لإاأناماصة170لا601 [13] | . 


3 ,قلأةااناط اام 

أ ومألمءمة فط مأ فعومفطء لمق لإلأنامأامه© ,.كردمهذدصةطامل [14] 
13-31.مم,1994 ,رمصوااق ]00510 رأ ب018م60 رةأنام600 

بءلأ5أناومنا. 5لام ©0‏ 10 (7مأأعلال0؛أما صث,.6,لالءممةكا [15] 
.1998 ,مه و5ما :كلتل تزع لاق ده050 ا 

ال اال ه50 لمق .6 ,طععها ,.5 ,تالأاقطمع6,8 .8 بكاكأن© [16] 
موأاومع هط 0 2ق ص03 ©#لاأدوط6م600 (1985) 
.ا :000 ا ,3090296 

أو 5أ5لإلهمة 50316مأناة هط[ (1991) .ل ,الهاءمز5 [17] 
3579-7 .مم ,1992 عأ ة/اك ما ,0م0601 

مأ ,”م أأ5أناودنا كنام0© لأ الخ أ0 51316 156“ (1991) ,لاععع ا .3 [18] 
,8-29.مم ,1991 وتعطمعأأج لمة نمزم 

ا طوتاومع 20625162-آ/0ة7ئومما .2 ,717615انا5 [19] 
.1991 ,0191840 م0 ,موأوهة0 0قة 01]615 :ذ5نام001 


5 , عدج كر 1512002 ج833 ال -دغ3) 20[344] 
,1999 ,2218 موز 
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جانغ بوء “بعض الآراء التنظيرية حول الذخائر اللغوية كبيرة الحجم”»؛ مجلة 
((دراسات تطبيقية في اللغة))» العدد الأول»135١.‏ 
اؤأاومع ,دملأنااملاع 5ناصرمه هط1 ,.5 .كاء510 .لز ,عاللصن8[١2]‏ 
2 ,/[1003 
ر'لوأقع5 5لام01© مل 012107655 656,م86' ,1993- .2 ,0ه6أ22[8] 
.243-257 .مم:4 .ولا ,8.امنا ومتأنامه0 علأوأناومنا لمة بمحععأنا 
0110411 ,06006066© 2 ,5لام 601‏ .ل ,الواءصالهة [23] 
1 ,لاإأأقاع/ا 01000 
1 , #32 , 47 و71 إل 11 ان اا ) 317ل 4 [24] 
م5 ,1997 :12776 ط غك :]4410 1271 لا 
ما شاو بينغ» ((طرق تمييز الرموز الصينية المكتوبة بخط اليدوأنظمتها))؛ 
رسالة دكتوراة؛ قسم علوم وتكنولوجيا الحاسب الآلي بجامعة تشين خواء 
مايوء .١391‏ 
1 (52 5631[ /7[1) +5 ا 9 52-1-1625 5 315 أقازة2] 
8 
قسم الرموز الصينية باللجنة القومية للأعمال الخاصة باللغة التحريرية؛ 
والأدب. 
6 مأ ,ملقنلاومقا 0 لإومامعع ه15 ,.غ.ط ماهلالا [26] 
بأصماعواكع مه ممطعارةنلالا لحممتتدمعاما أه د5ومصألموعمكط 
١‏ 3م3ل0531165,1990,0150 1م016 


5306لا طوؤلتلومع أه* مملأملعق08 8 ذلنهللاه1, .85 ,اكأنا© [27] 
40-61.مم ,لأأواء50 اقعءأومامائتطط آه روتاعووصة 1 
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لأوأاووع أه 5ألزلهمظ لإعمقبوع2 .لا وععبكا, .لا .للا ,وأممهظ [28] 
ألما حمأتاأوبه! :805100 ,3:32 ل0مة ممعللام ا :هو55نا 


9 012101131163 هلاق .ا .6 ,ملطنظ .8 ,8 رومعع:6 [29] 
,605ل 5أناومنا أ0 العصايهمه0 .| .8 رعممعلأيام5 ,لدوأاومع أه 
.615117 /اأملا مم8 

/18102/5 /16306/مه .طتنا بالط .تمطا //تمقط :كنامه© مبررمم8 [30] 
لقاط. »اعم /مبرمرط 

.1886 .6 ,اعععا! لمة .ل ,3510© ,ع ,العللاة ,.5 ,ممسعموطمل [31] 
3و6 ,لهنامةالطا 565لا :ذلامرمه 6058| 130060 ه756 
٠‏ رقع أأمقصناط م15 ١ه؛‏ تعامع© ودأأناممره6© 

8 اا لأذأاودع لأ 018م001 'عأنام050© (.60) .5 ,مموموتاول [32] 
8 105 ماصع وملأأناممه© مؤأوعاصملةا :موورة8 ,طمعوموده8 
8 رقم أمة مانالا 

تاأؤأاومع أه 5لهلإلوصمملاءمعنهوة:,.نا ,لموائمك ,.5 ,لزمومقطمل [33] 
:0:00:00 .5املا 2 تقصصةق:6 لمة /مقاناطوعم/ا 
,55م 

0 05 5لام00) لمننا-صولمما فط (.0ه6) .ل باأنطيه5 [34] 
0 510165 لطننا :لصنلا لأمنقعق86 300 لوأأمأرودهة2 زحاوأاومع 
.216855 لإأأقاة/اأملالصننا .82 لذأاومع. 

لكأن .0ع.عص ااام ت.لاأناطه© .قأصقانا //نتمقط ,طذتاومع أه عامه8 عط [35] 
1 .مقط -مأما عمط 

.اانا 008 فص نااه0 ,لمقدمائءأ0 طوألومع اانا 608 كم ااه 36[0] 

61 القةتموهم ا ,كانتا عنام ققصمومما ,قعر]اصناك5 ذااع37[0] 
بلوأق 26‏ 300 5-00]603نام00 ووتنلاومقا طذذاومجع 
.مم :3 .هلظ 6 .املا ,لإطموومء0<اعا أه اومنامل. أهممألأقمعاما 
.181-208 
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عط /عان.عة.)ده.مكما /إنمناط ,كدمره© أقده نألا ذلا 38[8] 


/عانا .ع3 . اعنا. لفايناننا//:صاطا طوتاومع أه 5دامره© لهدمنتأدمعاما 158 [39] 
.اللاط. ع 306/1 كناءطذ أاومع 


2 ,813818 ج854 , ]2ر151 ,88425 [40] 
تشن خه تشين» (إقائمة الرموز المستخدمة في الأساليب اللغوية المختلفة))؛ ذال 


النشر التجارية: .١15417‏ 


]41[ 


ل ل تت 


2: 6 


وانغ خوايء وتشانغ باو روء وآخرون» ((معجم معدل تكرار الكلمات في اللغة 
الصينية الحديثة))» دار نشر معهد اللغات الأجنبية ببكين» 11457. 


,نل جل , «7 ع 5  )311‏ .15 [42] 
تشن يوانء» ((التحليل الكمي للغة الصينية الحديثة))» دار النشر التعليمية 
بشنغهاي: 1987. 
ببا.ناكه. وعتصزة. وات اع ومو //:مائط 1ج 47 3/2 5 17د داه 5( ج [43] 

الذخيرة المتوازنة لمعهد الدراسات المركزي بتايوان» 
بت نالع عنم أك.كزل اعلمع//:م اا 
ممة علولا ,معط مموأالل-طع»ظ لمة معظ-باطكت ,ومدنك [44] 
أنه وأملهة8630 أ 5نممزه0 وذعللط© ألوم 013551 
علأوأناومأًا لصضة ولأوودععع520 ا [ةنأةل1 10 
مناه؛) 6 عاكعة 1 0047© طناز5 هط أ لعأموعع5 ,رومأ أنام ره 
وأصووء0-قوأقم مأ 50101065 0313 أ0 لإعنانا5 هط1 مه ولأأعه/ا 
.(1994 بوعتصأة عأمعلوعم :أعمتة1) 85 1أمناه 
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لمة 8/0086 ,معطت مموأال-معكا لمج موتا-باط© ,ومونك [45] 
ألاة1 وعأماد مأمع0هع8 أ ورممره© وووواط0 أووأود وا 
350 ومأووععممط ها أهنأةلآ ,10 021863565 
مناهىق )ا725 00878© طاكاك هط أج لمأمعومرم ,570 نم01 
القع 00-مداقم مأ 5عم]نا50 0218 أ0 لإعلدنا5 عطأا نه ومأاععم 
4 ,قعألأ5 علمع0هء86 :أعماج1) 5دوأامنه6© 
,1996 ,ناقاط عالط ,ومقطك .ظ.ارومونظ .8 .0 ,معط0 .ل >[ [46] 
لمععمةا53 :ه10 لزوماهله1/65 دوأوء2 :060821005 لمعالززك” 
,167-176 .هم ,لل0ااممقط 0 كومالموممره "ورومرمن 
1 . 0 كارانام56 
31 + لج ع م ) حاء حا 35 غك إن رذج تخ تتضغة جر 117 زاغ( 7 [47] 
م5 ,1998 , 1021157 
مركز الاستشارات اللغوية العلمية بجامعة المدينة بهونج كونجء ((تقرير 
بحثي تزامني عن المفردات في خمس مناطق ناطقة باللغة الصينية))» دار 
النشر التجارية, ٠ .١95/87‏ 
١ 9‏ « اج 8 5 2 76 36 111511 /7[11) 47 ]تنه 1 . 12 ([48[7] 
٠ 1‏ ,6 
سوين ماو سونغ» وخوانغ جيان بينغ»وآخرونء ((محضر الاجتماع الخاص 
باعتماد برمجية ذخيرة اللغة الصينية الحديثة))ءيناير» 1495. 
5 , « 4 ل ل فوزوعة خ عع نري 2254 ,الع روه 
٠‏ ,1998 ,82 
وانغ جيان شينء“برمجيات الفهرسة: أدوات مفيدة في علم الذخائر اللغوية” 
مجلة ((علم اللغة المعاصر))» عدد يناير» .١191948‏ 
لقءأل76 متطاابيا ممأكوتيها أهناأ»اة]-ة اما ,.عارمقووصاعء, .م معطز50[8] 
201-2.هم ,صهواط 06 6از0050 ما روواءائفج طم/قعدمهة 
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0مة أعمززأة صأ ,'قعققنطم أ0 أملص ذ' (1991) .6 ععرراءل“از51] 
.111-17 .مم,1991 وععطمعماام 
1 ,ةو غبع142 75 , (للاعة 1 8 122/818) 12117 .5( 8 ع52[24] 
.998 
جو شوي لونغء وآي خونغ ميء ((مبادئ نظرية المعلومات التطبيقية))» 
مقرر دراسي خاص بجامعة تشين خواء 5948 .١1‏ 


علأوأنوما 60# ووهوترمعط 1‏ 30 08م53[1860,3.)1992(,00] 
.149-163 .مم,1992 كااأ/ارة/ا5.لرارع701173ز8م 


60-66 1ممه 510683516 أ 55ووأأوءأاممم .5 وصدهلا.31ا[54] 
معأرمدره© :مارمطأاهمواة علأكأناه-5106م عطأا و7رأدنا 9185010315 
.237-7.مم,1991,5 350113908 ا 8 اع66م5 


ممم مولنةطلأومع عل أذأناه-5106م!ا الاروعطقطه5,.أروأعره566 [55] 

احنامممْ 307 هط أه دومألعوممرط :مايققهممه أماعوئط لزألا ةم 

,05 أأ5أناونا اهمه ة]نام 0 ه10 مولأدأه0ه8550 وط٠طأ‏ أه ووائعةالا 

1995 ,رق5لا ,عتدنالداء بعانقتاةلا ,806لدا0 أه لإأأونع ناملا 
.128-5.مم 


اا عط ,وصاصوعا عوذناوصهقا لقع 511151 ,لوأصةطانه6ع6مه6و56[60] 
5 ,لمملمما ,قوعم 

رن متوببطاهك أقءنأة 1 53 أمعدعم1706أ306ناودم ا ,كتقاعمأ5ك مطمل [57] 
,1998 روم اأمصهمةكء هط صق 5زعأنام00 .م105 أ13ماملا6© 5م001 

.229-255 .مم ,31.اهلا - 

لأ أوصصة ذنامه© رك الإلعصعءل1ا ,.6,رطعهعها ,.ظرعل58[68:510] 
7ن الاع لأ 2 0091530 ا 
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]59[ : 

٠١ 11: 2257018‏ 830272181101327 عد عزعز دل ) 7019 اا 

ه2000 

ليو كاي يينغ» ((التمييز الآلني لحدود الكلمات داخل النصوص الصينية 

وترميزها))؛ بكين: درا النشر التجارية» .٠٠٠١‏ 

:5 لاذلاودع أه عاناأءنانأة 6أأع3املاة ع1 (1978) .8 ,30و16 60[2] 
مللام81 ١م[‏ )ع1 0 505اكا الاه1؟ 05 لإلناأه 62560طدع ]لام امه م 
مأ 50165 ومالاطصعطا0 :66500نات) .5لامنزه) لإأأواع/اامنلا 
.3 لماؤأاومع 

81 أاطلاة 8 1013:05,.لط! ,طزأ00510 ,لظ ,مععولالوك صقلا [61] 
<اة أع ذانلثة ما <لمم]أ5لا5 5أ5لالهم 10508 156 :03180356 
1 .145-12 .مم ,1993 

بأععزئط عأمقطعع: 1 ممصعط 1856 [63] 
تغط ع مهال اممطعع- /نالع. لمعم نا . كاء. ابارلايطا//:ماغخط 

؟0؟ 12[1ن 516 96نلنأوصقا عأأعق الاك وملأأهامكاع , .0 ,وطاعط64[2] 
زف 05510 مم وطأاعل00 ا 
.000 ,للق لاطؤل ,لإأأقيع/اأمناماكاومه! ا مصطمل 

لقعلاعا ده 853560 ,23:56 أق51915]12 الأعلة لم ,ل .آل ,5ص ااه 65[0] 
قأطة5 رباعم هط أه ومتاعةلا اجناصمة "34 عط ,فعأومعلمهةمة0 
6 02110015 ,0002 

ع1 (مأو5اء26 ,أق أه ,.8 ,أععزع/1 لمث .ل ,لالضايع]!3 ٠‏ .ع ,كإعوذاعل[66] 
5 ©7568 ,اع0ل1/10 ممللهنائرةنا معلل 1لا ج ورأذنا ومأوميجط 
.مم ,ممطعكلنهةلالا لإوهاهضاءة 1 عندلاومه! محصنط 1994 هط أه 
272-77 
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لاا ,ا بعلصمعننولمة/ا ,.8 .للا رصواهط ,.ط .5 ,ممذل هق طءا8 [67] 
1 لمع موأتةمومكما علأمفمة5 ولأأناأنماكت لمق وماءأناوقَ : 
1098-1102.مم ,2 .ام“ ,86198 
و7أ5لا ,.نا بعالمتتكت لمم .6 ركاصوط ,.لالا رولة6 ,كا طعنطت [68] 
.مم ,1993 العيثطاة لمح عمأنه5 مأ ,5أ5لإلهمة أدءأناها مأ ءأأ5أأ51 
.85-96 
22 0 60 نتاف شل كن #سسلئعت اننا 
اأعيبطم لصة ععأنا50 دأ ركمهأأعنانأكمم» لاذتاومع 15 5عا6036مم3 
.85-6 .مم ,1993 
مز عصولاعط اول عاأمهمهةة 15 ععصولأناة ملأعواصلزة .0 ,األداألاا[70] 
,182-196 :مم ,1991 وتعطمع اام ممة عممرزالة ,اذأاومة 
رلوك عناضهه لاذتاومع ما ذلوموأة مه /© .8 لل ,10ه]7115]605] 
87-9 .مم ,1987 ذزأهل/ا دأ 
م1 ,3184 , (17]35ظ :021 1356 7311) 72[18:1512] 
00 ,4 ,1995 .221232 
جاو شو خواء ((إحصاء أنماط الجمل في اللغة الصينية الحديثقودراستها))؛ 
تقرير عن نتائج بحثية» جامعة اللغات والثقافة ببكين» إبريل» .١155©‏ 
خط عامصدة/ءطه نه /نامع. اعتصسن. لصن .اع //نصقط :88136 الله [73] 
ذخيرة إيه إتش آي الام ْ 
مغط. عامصيدة /غطة/ة/نانع. داعتصانا. لمانا أع//:متاط 
مقوعهممْ وطآ .ط ,مقصطء8 لمث .2 ,ووأ/اة0 ,.قل ,أاهمم© [74] 
مووقعهم اروك يعلطا ,كامه8 لإعمعبوع5 لرمللا مودأمعطا 
.00 ومتطوأالطنط عووأاترة 
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,1987 ,لالقصملاءا وودنلاومقا طدتاومع لاأناطه©. كطللاهم© [75] 
.005 ,هته ا 

93314 15 :611 , « الا[ 13815338) 370844 .-76[251851] 
ه76 , 
خوانغ جو رنء وتشن كه جيان» ((معجم الكلمات الكمية المستخدمة في 

جرائد تايوان))» تاي بيه؛ دار نشر الجرائد التايوانية».951١.‏ 

مأ ,1930-1955 ,لقمع8آ] علأوأناوماًا ]0 5أ5ممصلازة له ,.8 .ل ,طاراع [77] 
1 اأ عطق8 :00:0 ذ5أ5لإلوهمث م أأوأناومنا مأ 5عألناأة 

ل011 م0012 0 ل1581أ01 لقلروصما (60 للاعم) بلاووو© [78] 
5 .ا :0ل تذاوودع ,طؤأالومع 

,1993 ,,0أة/اأاعم وموتقناوصةا 37لمومما .0 ,ظممصمن5 [79] 
0١ ْ‏ ا 

12 أ نوأ أأواماة عط م0 ,.ع , مهوعمأء ,.0 مهطز8 [80] 
.مم ,1991 ,ونع طمعأاكةقعج زلة مأ ,165أ0نأ5 32131100 16 0م001 
020460 

اقاظ عط1 .8 ,رصضوذاا لمث .ع ,ممدمع8 ,.آطز ,ممذومع5 [81] 
مطول :0205(غأكهة ,ذذتاومع أ0 بقمومملءلط بحمأهصاطدره©0 
.6 .00 ومأطؤأاطنط عصأاصسوزمع8 

رثأ5أاودع 05 لإنقصوناءأما لإانمأوماطمه 8 ,رت ,ضمؤمع8 [82] 
طتملظ 01 بزأعاع50 لإسودمناءامم عط1 ]0 لوصانامل:65 1 قوم ءام 


.6137م 

[83] 
الس هه ب ال ا 0 
2 ,3+8 


. 4 


جانغ شو كانغ» ولين تشي جوانغ» ((معجم تصاحبات الكلمات الحقيقية في 
اللغة الصينية الحديثة))» بكين؛ دار النشر التجاريةء .١5517‏ 
لة/ا6]016 ]ملاظ ,عا ,عاالااناعل! 300 ,.1 ,مأعالكا ,.لا بوكاعنمط84[16] 
202 3 مأ 5مهأ1655م<6 20110694150 300 مأث2 ممأل اعباوه؟؟ أه0 
.4 ,70 أأنام201) علأوأناوطذا لمة ةقانا أه أهلانامل ,ذ5نام00 


اهباأناا/ا ,2550618110 لنملالا ,.م ,قامولا ,.>! ,طعربط© [85] 
أهو 006601005م ها .للإطمهومعن ا | 300 صملتوصوهام!ا 
21008 أنام0010) 101 0ضأأهأء8550 أ0 ورااعمم أوناصدم27 
.76-3 .مم ,1989 ركو أأدأناومنا 

ع 4< تق 1 لمأأقه00!!0) وداأباعلام5 ,.1 ,550309 [86] 
,19 .املا رقع أأوأناوم ذا أقمم تئج نام مره6 

871 ٠ 
,تتام , (11ة8 +8 تر 2251 ) 4 بارع‎ 1997, 1 


سوين ماو سونغ وآخرونء “دراسة أولية عن التحليل الكمي للتصاحبات 
اللغوية في اللغة الصينية” مجلة ((اللغة والأدب في الصين))؛ يناير» 
057 
0 0135511805 ,ومةناطمع8-ناطت لمق موواطتهكا ,ذمعرام [88] 
من انلاقم 8 ومأئة10أ1/0 :ممأمرع60© عملز؟ عاأموموة ' 
9 .605. ملكا .8 ل لضع عليح5 .5-.8 ,مز رورم أ)زووة01 0 
,29 لاوقا 06 عممع:16م0© ذَأدم وأزموم “111 وط 04 
م6 وثالاكا :انامع5) «مأأهأنام00 200 موللوصوهاما 
1-0 .مم ,(1996 ,لإألممعلاامنا 
005 أن 001111 أ0 15601 لأه72560216 لم .© ,ممصصهقط5 [89] 
6223-0 .مم ,1949.27 ,لوصول لوعتصطعع؟ لمفعاديزة أاع8 
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2560ه-05م001 .8 ,موممة8 لمم .5 ,لقاده© ,.0 رواطأ8 [90] 
لع 1اممم رق أأ5أناومذًا 0وذأاممة مأ 155085 10 85اآع03ممم 
169-189 .مم ,0.2ل8 ,15 .أملا 15 أ5أناومأا 
نط0 ,ونأ لاا لقة اعوق6م5 30055 م3136/ا ,.0 رنوطأ91[8] 
.1988 رعوعرط لإأزوع/اامناع 030062109 
[92] 
ا ,32 ]د , « لاطت ماك زا راق 8 ) 2 177اا 
5٠‏ ,3 ,1996 ,كر( 
ليو كاي يينغ» ((دراسة لتقييم منهجيات التقسيم الآلي لحدود الكلمات الصينية 
والترميز الآلي لأنواع الكلمات))؛ بكين» دار نشر عالم الكمبيوترء نسخة 
خاصة للتقييم» مارس» .١195‏ 
[93] 
+4 كر 11 1# 3 1 قاع - 53 1( 2/71 ) 4# 5 كر 316 ماطراة 
4 ,199742 ,28 21831735 + ( لا ان 1ع ذا 
0 3511 
سوين ماو سونغء؛ وخوانغ تشانغ نينغ» وآخرون؛ “استخدام نحو العلاقات 
الثنائية بين الرموز الصيئية في إزالة اللبس المركب عند التمييز الآلي لحدود 
الكلمات الصينية”» مجلة ((دراسات في تطوير علوم الحاسب))ء: العدد 
الخامس من المجلد 5”, .١991/‏ 
[94] 
1110-1 + «111735 17+ تاج 52 لا غلا حا [تنة(2 زلذة 3 ) 27 527 
86 ,17252 للا 
وو فانغ فانغ» ((دراسات في منهجيات تقسيم مقاطع الرموز الصينية التي 
تمثل لبمئا في أثناء التمييز الآلي لحدود الكلمات الصينية))؛ رسالة ماجستير» 
جامعة شان شي» .١959/4‏ 
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[95] 
1 الغ ع2 1 , 87 مزع ؤم ده رقا راق 8 1715) 32ر2 
66 ,1998 ,111-1612 رج جد عره 
زوه جنغ بينغ» ((بعض مشكلات التمييز الآلي لحدود الكلمات الصينية))» 
رسالة ماجستير بقسم علوم الحاسب والتكنولوجيا بجامعة تشين خواء يونيه» 
18., 
[96] 
و 7 0ق جح ناسعن ا 440 بت ا لل 
ش 8 .115112113 
سوين ماو سونغ» وزوه جنغ بينغ» “لبس السلاسل المتداخلة في. النصوص 
الصينية الحقيقية"» ((دراسات إحصائية وحاسوبية عن اللغة الصينية))؛ 
4 1. 
©1256 (الأ50 3250 001300م 03115 500885116 ثْ ,.كا رطعقناطت [97] ش 
600 عطا أه 5ومألمعهعم2 نما ,163 10160 أدع1من 101 تزعكلوم 
500655150 ةا ألهنأةلا ل0عزأاممة ذه ومممعرع 1م00 
ْ .1988 
5 [98] 
151215111 عا 2212 حل (م ع1 |1 8 216  )‏ , ج1121 . 1 ع2 
د 7لالا ةع 81858 1  )‏ :2345 .22 ؛ « نارق 
م119-5.مم ,1995 ,72 بن غ 8182 :ترما 
لي وين جييه» وبان خاي خواء ((الاستخراج الآلي للتعبيرات الاسمية 
الطويلة في اللغة الصينية اعتماذا على ذخيرة لغوية))؛ تشن لي واي» ويوان 
تشي بيانء» ((تطور تطبيقات علم اللغة الحاسوبي))؛ بكين» دار نشر جامعة 
تشين خواء :١956©‏ صفحة 156-919 
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[99] 
٠#‏ . 142-097 125 |13 191501 [ننا كط حا ع 1115 36 :0 
ا اتا نر م م وم 
جاو جوينء ((التعبيرات اللغوية الاسمية الأساسية في اللغة الصينية دراسة 
في التمييز الآلي والتحليل البنائي))» رسالة دكتوراة» قسم علوم الحاسب 
والتكنولوجيا بجامعة تشين خواء .١59/7‏ 
[100] 
ككل قتادة , 17 1 :1 لا 255 . 185 7ح ) لعز 
97-0.مم ,4.هل0 ,1996 ,اده 
جانغ وي قوه“ثلاثة حلول لثلاثة أنوع من المحددات؛ وثلاثة أنواع من 
المعنى”: ((المجلة العلمية لجامعة الشعب الصينية)): العدد الرايع» 23595 
صفحة /ا91-.١١١.‏ 
لمة ومتصضقعا معنا0- مقع 021105-62560ره51مة !1 .ع ,ااأر8ة [101] 
-أ911-0م لأ لإلللأهة 6256 :3 :70أ706655م 6ل3لاوصضةا [5ناأة0 
0.4 .21لا ركع أأوأناوملنا أهمه! اناه :ما ,70أ1390 لع66م5 
,1995 
9لأذنا و7أكاصناطء 166 .8 13:05 .,.ا ,القطدمة5 [102)] 
عط أه 5وصالععء50 :ما ,وماصقها 0ع5وط6-ررهأ2م0510 ةا 
82-94.مم ,1995 ,ؤنام01© 3:08 ا بمعلا مه موحناةكا لاا انه 
9 07أأةناوأطت01535 52058 03140مآناكث ',أعقطءأ/ا ,كاوها [103] 
6 ع(اأم 3 العا ه16 بزاوك :5ع وممناأءأل عاطولهع:-عصاطعوما 
6 هط 05 وموألوععه20 ما .هممه لمقعنه ه166 مه مزه 
.24-26 .مم روعمهرة]دمه 51652006 
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له :58/731165 ععمعزهأع2 .255 030 لمق لح عاءتر/ ,ذعااثلالا [104] 
أ ولأأنام م00 ,1/1005-90-194 مم86 .لبصماقاط بزأنصة] 
.ألالا ,كمعن © كه ,لزأتمرعن أدرناء512مم رولا بعلم ,260181013 ا 

5109 لوأأدناوأط3 015 ع5مه5 ل0ملالا ,لأننجم بواوببامرهلا [105] 
6810| همه لممدأت1 0516000165 5أعوه8 أن اعلممه أوم6أذ 0ه 
ممع ]م60 لوممللة مهام 14 6 أ 5ومألعع0م50 .018م1م00 
454-460.مم ,1156:92ا00) ,قم زأأذأناودنا لأهنمه2انامنه© ره 
.أ5ناونام ,1992 ,ععصتمقم؟ ,وعأامولا 

لاأأناوأطهمة لهعلئاها ,10 5اأذنا لوأؤأعع0 ,ب/واو/اميهلا.0 [106] 
لأوامةم5 0 56510807 أموعءم 16 ممأأوءأاممم :مم أناموهه 
2866060 أو ولأاعهة/ا أحناصمم 3299 6 :ألا .طعمعط لمقة 
.868-95.مم ,1994 ,كمأ أ5أناوصنا 310121 أنام 000 10 

©5 ]هلالا 10 لوطاعل/1 اوءئنأ512!15 م .8 عممنم8 [107] 
باع لا :050 [1556131100نا. اطاط ,61 أ ناوأطصطة015] 

.هم ,1995 ,لإأأواع/ازمناع]519مء ناولا ا 

[108] 
6ل مطققط , 17# تلا 151) 8218 . دك , وق 1 

٠ 11571١ 
مي جيا جوء وجو يي مينغ» وجاو وين تشيء ((معجم غابة المترادفات)),‎ 
.١9181 شنغهايء؛ دار نشر المعاجم بشنغهاي»‎ 

5 اناومنا مأ 1م" .ور أصدء اا 5ه 1957.1/10065 8ل ,طلاط [109] 
01010 ,2655 'زإ1أ0/6)5أم 00:01 ,190-215 .مم ,1934-1151 
فاق 
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عيه 0 » ١‏ 
المؤلف في سطور) 
المُؤلّف الرئيس لهذا الكتاب هو الأستاذ الدكتور خوانغ تشانغ نينغء 
أحد أشهر علماء اللغة الحاسوبيين في الصين. ولد خوانغ تشائغ نينغ عام 
37 في مقاطعة جوانغ دونغ» في عام ١‏ تخرج في قشم المحركات 
الكهربية بجامعة تشينغ خوا ببكين. وفي عام ١187”‏ سافر في بعشة إلى 
جامعة ييل (5إ)أوتء«نمنآ علدلا) بالولايات المتحدة الأمريكية لمدة عام» وعمل 
في التدريس لمدة عام بجامعة العلوم والتكنولوجيا بهونج كونج عام .١1585‏ 
وفي عام 11954ء عمل مديرا لمركز أبحاث شركة ميكروسوفت في الصين. 
وينظر إليه الصينيون باعتباره ممهد الطريق لتوطين علوم المعالجة الآلية 
للغات الطبيعية في الصين. في سبعينيات القرن العشرين ذاع صيته كأستاذ 
متميز في جامعة تشينغ خوا عندما ألف مُقرّر (دوائر الترانزستور)؛ حيث 
حقق هذا المقرر مبيعات زادت عن مليون نسخة داخل الصين. وبعد ذلك» 
قدّمَ ترجمة لكتابين أحدثا أثرا كبيرًا في المجتمع العلمي الصيني هما كتاب 
(مبادئ الذكاء الاصطناعي).؛ وكتاب (البرمجة باستخدام لغة 1.158): ليملا 
بذلك الفراغ العلمي الموجود في تلك الفترة. 
وقد وصل خوانغ تشانغ نينغ إلى قمة أخرى من قمم الشهرة العلمية 
عندما عمل في حقل الدراسات المتعلقة بعلم معالجة اللغات الطبيعية؛ حيث 


)١(‏ ملحوظة: الكتاب الأصلي لا يحتوي على تعريف بالمؤلف» ولذلك تم التعريف به في مقدمة المترجم. 
بالإضافة إلى كتابة هذا التعريف في نبذة مستقلة. 
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بدأ بتنظيم مجموعات بحثية داخل الصين وخارجها في هذا المجال» ثم تولى 
رئاسة العديد من المؤتمرات الدولية وهيئات المبرمجين في مجال المعالجة 
الآلية للغات الطبيعية. ويتولي خوانغ تشانغ نينغ الآن رئاسة تحرير (المجلة 
العلمية للمعلوماتية الصينية)؛ بالإضافة إلى كونه مُحكمًا وعضو هيئة تحرير 
العديد من المجلات العلمية الدولية؛ مثل: (المجلة التخصصية في معالجة 
المعلومات باللغات الآسيوية 4©31) بالولايات المتحدة الأمريكية؛ و (النشرة 
الدورية لجمعية معالجة المعلومات باللغة الصينية واللغفات الشرقية) 
بسنغافورة» ومجلة (معالجة اللغات الطبيعية) باليابان» ومجلة (دراسات نقدية 
حول علم اللغة في الصين) بهونج كونجء ومجلة (علم اللغة الحاسوبي 
ومعالجة اللغات الصينية) بتايوان(". 

وقد شارك خوانغ تشانغ نينغ في مشروعين بحثيين في إطار الخطة 
الخمسية السابعة للحكومة الصينية عام ١134©‏ هما: مشروع "الفهم الآلي 
للغات الطبيعية والبرامج البينية بين الإنسان والآلة" وكان ذلك في نطاق 
مشروعات العصف الذهني» ومشروع 'تقنيات الفهم الآلي للنصوص 
العسكرية" في نطاق المشروعات البحثية المستقبلية للدفاع الوطني بالإضافة 
إلى مشروع 'نظام للترجمة الآلية بين اللغتين الصينية واليابانية* بالتعاون بين 
جامعتي تشينغ خونا ونانكين الصينيتين. وقد حصل هذا المشروع على المركز 


)١(‏ لمزيد من المعلومات عن المؤلف: انظر الموسوعة الصيئية على الرابط التالي:. 
خط .1615502 / جع 1 الحم ,نال تقطع طأهط//:صاغط 
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الثاني في مجال تطوير العلوم والتكنولوجيا من لجنة التعليم بالحكومة 
الصينية. ش 


وقد سبق أن تولى خوانغ تشانغ نينغ رئاسة الفريق البحشي الصيني 
الذي كلف من وزارة الصناعات الإلكترونية الصينية للمشاركة في مشروع 
الترجمة الآلية متعدد اللغات الذي رصدت له الحكومة اليابانية خمسين مليون 
دولار أمريكي عام ١44٠‏ لتطوير نظام للترجمة الآلية بين لغات خمس دول 
آأسيوية هي: اليابان» والصينء وماليزياء وسنغافورة» وتايلائد. 

وفي عام ١194©‏ شارك في مشروع بحثي للترجمة الآلية بين اللغتين 
الإنجليزية والصينية ممثلا عن جامعة تشينغ خوا الصينية بالتعاون مع شركة 
256 الأمريكية. كما نجح مع فريقه البحثي في .بيع حقوق الملكية الفكرية 
لعدد من النتائج البحثية لشركتي آي بي إم 18134» وميكروسوفت 14107050]6. 

لي جوان تري 

تخرجت عام ١185‏ في قسم علوم الحاسب والتكنولوجيا بجامعة شان شي 
الصينية» وحصلت على الدكتوراه عام ٠٠٠١‏ في التخصص ذاته من جامعة تشينغ 
خواء وعملت منذ عام ٠٠١١‏ بقسم الحاسب بجامعة تشينغ خواء وتشغل منذ ٠7٠١54‏ 
منصب نائب رئيس مركز بحوث البرمجيات التابع لقسم علوم الحاسب 
والتكنولوجيا بالجامعة نفسهاء كما أنها عضو بجمعية الحاسب الصينية منذ عام 
ل للك 

أهم توجهاتها البحثية معالجة المعلومات باللغة الصينية» واكتشاف المعارف 
وإدارتها في بيئة الإنترنت؛» شاركت أكثر من مرة كعضو رئيس في مشروعات 
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الحكومة الصينية في مجال المعلومات؛ حيث عملت في الفترة من 1995-١99٠‏ 
كمسؤول رئيس عن المشروع البحثي ل- "التحليل الآلي للجمل في اللغة الصينية"؛ 
كما عملت باحثًا رئيسًا في المشروع الرئيس للحكومة الصينية في مجال العلوم 
الطبيعية عن "النظريات والمنهجيات والأدوات البحثية المستخدمة في علم الذخائر 
اللغوية": وذلك في الفترة من .1144-1١557‏ وحازت عام ١114‏ على جائزة 
التقدم التكنولوجي من الدرجة الأولى من مقاطعة شان شي. 
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المترجم في سطور 


أستاذ الترجمة واللغويات الحاسوبية» بقسم اللغة الصينية» بكلية الألسن 

- جامعة عين شمس. 
حصل على ماجستير الألسن في الترجمة التحريرية عام .١119١‏ 
حصل على دكتوراه الألسن”في اللغويات التقابلية بين الصينية والعربية 

عام .١991/‏ 
حصل على درجة أستاذ في الترجمة واللغويات الحاسوبية عام .5١١١‏ 
شارك في تأسيس قسم.اللغة إلصينية بكلية الآداب جامعة القاهرة عام 

4 

الإنتاج العلمي البحثي: 

. قام بتأليف ونشر العديد من الأبحاث في مجال اللغويات التطبيقية: 

. والترجمة» واللغويات الحاسوبية» نذكر منها على سبيل المثال: 

-١‏ 'إشكاليات تهيئة الذخائر اللغوية وبنائها حاسوبيًا: اللغكان العربية 
والصينية نموذجا" (نشر في مجلد المؤتمر الثاني عشر لمعالجة 
المعلومات بلغات القوميات الأقلية بالصين). 

؟- "بناء قاعدة بيانات للتصاحب اللغوي في الصينية والعربية: دراسة 
إحصائية حاسوبية" (نشر في مجلد أبحاث المؤتمر الدولي التاسع لتعليم 
اللغة الصينية للدُجانب بالصين» وحصل على جائزة البحوث المبتكرة). 
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“- 'قواعد البيانات الإلكترونية وتطوير صناعة المعاجم المتخصصة ثنائية 
اللغة". 

4 - 'إشكاليات ترجمة أسماء الأعلام بين اللغتين الصينية والعربية". 

ه- "تجاه جديد لتعليم الرموز الصينية انطلاقا من المدخل المنظومي ف 
التعليم والتعلم" (نشر في مجلد أبحاث المؤتمر الدولي الثامن لتعليم اللغة 

5- "الجامعة العربية المفتوحة وتعليم اللغات الأجنبية: اللغة الصينية 
نموذجا". 

-٠‏ "المدخل المنظومي والوسائط المتعددة في تعليم وتعلم الترجمة الفورية". 
قام بتأليف عدد من المقررات الدراسية في اللغويات التطبيقية 

والترجمة: 

١‏ - (محاضرات في الاستماع باللغة الصينية). 

؟- (مبادئ الترجمة التحريرية من الصينية إلى العربية). 

*- (الجملة المركبة بين اللغتين الصينية والعربية: دراسة تقابلية). 


الإنتاج في مجال الترجمة: 

ترجمة كتاب (فن الحرب: النص الأصلي لسون تزي وشروحه 
المعاصرة). صدر ضمن أعمال المشروع القومي للترجمة:؛ العدد 2451 
ه.ءه5, ْ 
الصينية عام 6" 
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تنظيم أربع ورش عمل في الترجمة التخصصية لإعداد كوادر من ' 
الطلاب بكلية الألسن جامعة عين شمسء نتج عنها أربعة أعداد مسن مجلة 
الجسر التي يرأس تحريرها. 

تخطيط ورشة للترجمة التخصصية عن اللغة الصينية وتنفيذهاء التي 
انعقدت في المركز القومي للترجمة في العام التدريبي .70١7-701١‏ 

تنظيم دورة صيفية مجانية لمدة ثلاثة أشهر لعدد 4 طالبًا وطالبة من 
قسم اللغة الصينية بكلية الألسن جامعة عين شمس للتدريب على مهارات 
الترجمة من خلال فريق عملء ونتج عن الدورة ترجمة كتاب في ٠١‏ 
صفحة من اللغة الصينية بعنوان ( كيف يربح أبناؤنا في عصر الإنترنت). 
تأسيس جماعة رؤية للترجمة من اللغة الصينية من طلاب قسم اللغفة 
الصينية بكلية الآداب جامعة القاهرة عام ,7٠٠٠©‏ وكان أول عمل ثمت 
ترجمته كتاب (قطوف من الحكمة الصينية). . 

مراجعة كتاب (كيف تجعل أبناءك يحبون الدراسة)» تأليف يانغ شياء 
ترجمة مي عاشورء والذي صدر ضمن أعمال المشروع القومي للترجمة؛ 
العدد 3577.ء عام .5١1١١‏ 

الإشراف على إعداد عدد منالمترجمين عن اللغة الصينية من خلال 
اقتراح سلسلة من الكتب المتخصصة باللغة الصينية» وترشيح المترجمين 
الجذد وتدريبهم. 

ترجمة سلسلة من المقررات الدراسية لتعليم اللغة الصينية للناطقين 
باللغة العربية» بعنوان (اللغة الصينية في مائة محاضرة). 
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التصحيح اللغوى. : يم ةءعالشور 
الإشراف القعى_: جسن كسبل 


